Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe, presentamos la serie Qwen2.5-Coder, una actualización significativa de su predecesor, CodeQwen1.5. Esta serie incluye dos modelos: Qwen2.5-Coder-1.5B y Qwen2.5-Coder-7B. Como un modelo específico para código, Qwen2.5-Coder se basa en la arquitectura Qwen2.5 y continúa preentrenado en un vasto corpus de más de 5.5 billones de tokens. A través de una meticulosa limpieza de datos, generación escalable de datos sintéticos y mezcla equilibrada de datos, Qwen2.5-Coder demuestra impresionantes capacidades de generación de código manteniendo su versatilidad general. El modelo ha sido evaluado en una amplia gama de tareas relacionadas con el código, logrando un rendimiento de última generación (SOTA) en más de 10 benchmarks, incluyendo generación de código, completado, razonamiento y reparación, superando consistentemente a modelos más grandes del mismo tamaño. Creemos que el lanzamiento de la serie Qwen2.5-Coder no solo empujará los límites de la investigación en inteligencia de código, sino que también, a través de su licencia permisiva, fomentará una adopción más amplia por parte de los desarrolladores en aplicaciones del mundo real.
Presentamos la Serie Qwen2-VL, una actualización avanzada de los modelos anteriores Qwen-VL que redefine el enfoque convencional de resolución predeterminada en el procesamiento visual. Qwen2-VL introduce el mecanismo de Resolución Dinámica Ingenua, que permite al modelo procesar dinámicamente imágenes de diferentes resoluciones en distintos números de tokens visuales. Este enfoque permite al modelo generar representaciones visuales más eficientes y precisas, alineándose estrechamente con los procesos perceptivos humanos. El modelo también integra el Incrustado de Posición Rotativa Multimodal (M-RoPE), facilitando la fusión efectiva de información posicional entre texto, imágenes y videos. Empleamos un paradigma unificado para procesar tanto imágenes como videos, mejorando las capacidades de percepción visual del modelo. Para explorar el potencial de los grandes modelos multimodales, Qwen2-VL investiga las leyes de escala para los grandes modelos de visión-lenguaje (LVLMs). Al escalar tanto el tamaño del modelo, con versiones de 2B, 8B y 72B parámetros, como la cantidad de datos de entrenamiento, la Serie Qwen2-VL logra un rendimiento altamente competitivo. Destacadamente, el modelo Qwen2-VL-72B alcanza resultados comparables a modelos líderes como GPT-4o y Claude3.5-Sonnet en diversos puntos de referencia multimodales, superando a otros modelos generalistas. El código está disponible en https://github.com/QwenLM/Qwen2-VL.
La comprensión textual amplia y el aprendizaje en contexto requieren modelos de lenguaje que utilicen contextos completos de documentos. Debido a los desafíos de implementación asociados con el entrenamiento directo de modelos de largo contexto, se han propuesto muchos métodos para extender los modelos y manejar contextos largos. Sin embargo, debido a las diferencias en los datos y clases de modelos, ha sido difícil comparar estos enfoques, lo que genera incertidumbre sobre cómo evaluar el rendimiento en contextos largos y si difiere de la evaluación estándar. Implementamos un protocolo controlado para los métodos de extensión con una evaluación estandarizada, utilizando modelos base consistentes y datos de extensión. Nuestro estudio proporciona varias ideas sobre el comportamiento en contextos largos. En primer lugar, reafirmamos el papel crítico de la perplejidad como indicador de rendimiento de propósito general incluso en tareas de contextos más largos. En segundo lugar, encontramos que los métodos actuales de atención aproximada sistemáticamente tienen un rendimiento inferior en tareas de largo contexto. Finalmente, confirmamos que los métodos de ajuste fino exactos son generalmente efectivos dentro del rango de su extensión, mientras que la extrapolación sigue siendo un desafío. Todos los códigos, modelos y puntos de control estarán disponibles de código abierto, promoviendo la transparencia y facilitando una mayor investigación en esta área crítica del desarrollo de IA.
La cadena de pensamiento (CoT) a través de la sugerencia es el método de facto para obtener capacidades de razonamiento de los grandes modelos de lenguaje (LLMs). Pero, ¿para qué tipos de tareas resulta realmente útil este "pensamiento" adicional? Para analizar esto, realizamos un metaanálisis cuantitativo que abarca más de 100 artículos que utilizan CoT y llevamos a cabo nuestras propias evaluaciones en 20 conjuntos de datos a través de 14 modelos. Nuestros resultados muestran que CoT proporciona fuertes beneficios de rendimiento principalmente en tareas que implican matemáticas o lógica, con ganancias mucho menores en otros tipos de tareas. En MMLU, generar directamente la respuesta sin CoT conduce a una precisión casi idéntica a la de CoT a menos que la pregunta o la respuesta del modelo contengan un signo igual, lo que indica operaciones y razonamientos simbólicos. A raíz de este hallazgo, analizamos el comportamiento de CoT en estos problemas al separar la planificación y la ejecución y al comparar con LLMs mejorados con herramientas. Gran parte de la mejora de CoT proviene de la mejora en la ejecución simbólica, pero su rendimiento es inferior en comparación con el uso de un solucionador simbólico. Nuestros resultados indican que CoT puede aplicarse selectivamente, manteniendo el rendimiento y ahorrando costos de inferencia. Además, sugieren la necesidad de avanzar más allá de CoT basado en sugerencias hacia nuevos paradigmas que aprovechen mejor la computación intermedia en todo el rango de aplicaciones de LLM.
La personalización juega un papel crítico en numerosas tareas y aplicaciones lingüísticas, ya que usuarios con los mismos requisitos pueden preferir salidas diversas basadas en sus intereses individuales. Esto ha llevado al desarrollo de varios enfoques personalizados destinados a adaptar modelos de lenguaje grandes (LLMs) para generar salidas personalizadas alineadas con las preferencias del usuario. Algunos de ellos implican ajustar finamente un LLM personalizado único para cada usuario, lo cual es demasiado costoso para una aplicación generalizada. Enfoques alternativos introducen información de personalización de forma plug-and-play mediante la recuperación de los textos históricos relevantes del usuario como demostraciones. Sin embargo, esta estrategia basada en recuperación puede romper la continuidad de la historia del usuario y no lograr capturar los estilos y patrones generales del usuario, lo que lleva a un rendimiento subóptimo. Para abordar estos desafíos, proponemos un nuevo modelo de LLM personalizado. Construye un embedding específico del usuario para cada individuo modelando todos sus contextos históricos a través de un módulo de incrustación de usuario plug-in ligero. Al adjuntar este embedding a la entrada de la tarea, los LLMs pueden comprender y capturar mejor los hábitos y preferencias del usuario, produciendo así salidas más personalizadas sin ajustar sus propios parámetros. Experimentos extensos en varias tareas en el banco de pruebas de personalización de modelos de lenguaje (LaMP) demuestran que el modelo propuesto supera significativamente a los enfoques existentes de LLM personalizados.
El ajuste de preferencias es un proceso crucial para alinear los modelos generativos profundos con las preferencias humanas. Esta encuesta ofrece una visión general exhaustiva de los avances recientes en el ajuste de preferencias y la integración de la retroalimentación humana. El documento está organizado en tres secciones principales: 1) introducción y preliminares: una introducción a los marcos de aprendizaje por refuerzo, tareas de ajuste de preferencias, modelos y conjuntos de datos en diversas modalidades: lenguaje, habla y visión, así como diferentes enfoques de políticas, 2) examen detallado de cada enfoque de ajuste de preferencias: un análisis detallado de los métodos utilizados en el ajuste de preferencias, y 3) aplicaciones, discusión y futuras direcciones: una exploración de las aplicaciones del ajuste de preferencias en tareas posteriores, incluidos métodos de evaluación para diferentes modalidades, y una perspectiva sobre las futuras direcciones de investigación. Nuestro objetivo es presentar las últimas metodologías en ajuste de preferencias y alineación de modelos, mejorando la comprensión de este campo para investigadores y profesionales. Esperamos fomentar un mayor compromiso e innovación en esta área.
Los modelos de Mezcla de Expertos (MoE) escalan de manera más efectiva que los modelos densos debido a la computación dispersa a través del enrutamiento de expertos, activando selectivamente solo un pequeño subconjunto de módulos expertos. Sin embargo, la computación dispersa desafía las prácticas de entrenamiento tradicionales, ya que el enrutamiento discreto de expertos obstaculiza la retropropagación estándar y, por lo tanto, la optimización basada en gradientes, que son la piedra angular del aprendizaje profundo. Para perseguir mejor el poder de escalado de MoE, presentamos GRIN (entrenamiento de Mezcla de Expertos informado por Gradiente), que incorpora estimación dispersa de gradientes para el enrutamiento de expertos y configura el paralelismo del modelo para evitar la eliminación de tokens. Aplicando GRIN a la modelización de lenguaje autoregresivo, desarrollamos un modelo MoE top-2 de 16 veces 3.8 mil millones. Nuestro modelo, con solo 6.6 mil millones de parámetros activados, supera a un modelo denso de 7 mil millones y coincide con el rendimiento de un modelo denso de 14 mil millones entrenado con los mismos datos. Evaluaciones extensas en diversas tareas demuestran el potencial de GRIN para mejorar significativamente la eficacia de MoE, logrando 79.4 en MMLU, 83.7 en HellaSwag, 74.4 en HumanEval y 58.9 en MATH.
Con la llegada de la era del big data y los grandes modelos de lenguaje, la personalización rápida y personalizada sin necesidad de entrenamiento ha surgido como una tendencia significativa. En este informe, presentamos Takin AudioLLM, una serie de técnicas y modelos, que incluyen principalmente Takin TTS, Takin VC y Takin Morphing, diseñados específicamente para la producción de audiolibros. Estos modelos son capaces de producir habla sin necesidad de entrenamiento, generando habla de alta calidad que es casi indistinguible del habla humana real y facilitando a las personas personalizar el contenido del habla según sus propias necesidades. Específicamente, primero presentamos Takin TTS, un modelo de lenguaje de códec neuronal que se basa en un códec de habla neuronal mejorado y un marco de entrenamiento multi-tarea, capaz de generar habla natural de alta fidelidad de manera sin necesidad de entrenamiento. Para Takin VC, abogamos por un enfoque efectivo de modelado conjunto de contenido y timbre para mejorar la similitud del hablante, mientras abogamos por un decodificador basado en emparejamiento de flujo condicional para mejorar aún más su naturalidad y expresividad. Por último, proponemos el sistema Takin Morphing con enfoques de modelado de timbre y prosodia altamente desacoplados y avanzados, que permiten a las personas personalizar la producción de habla con su timbre y prosodia preferidos de manera precisa y controlable. Experimentos extensos validan la efectividad y robustez de nuestros modelos de la serie Takin AudioLLM. Para demostraciones detalladas, consulte https://takinaudiollm.github.io.
Nos embarcamos en la antigua búsqueda: desvelar las dimensiones ocultas de objetos a partir de simples vistazos a sus partes visibles. Para abordar esto, presentamos Vista3D, un marco que logra una generación rápida y consistente de modelos 3D en tan solo 5 minutos. En el núcleo de Vista3D se encuentra un enfoque de dos fases: la fase gruesa y la fase fina. En la fase gruesa, generamos rápidamente la geometría inicial con "Gaussian Splatting" a partir de una sola imagen. En la fase fina, extraemos una Función de Distancia Firmada (SDF) directamente de "Gaussian Splatting" aprendido, optimizándola con una representación de superficie iso-diferenciable. Además, eleva la calidad de la generación utilizando una representación disentangled con dos funciones implícitas independientes para capturar los aspectos visibles y ocultos de los objetos. Asimismo, armoniza los gradientes de una difusión previa en 2D con difusiones previas conscientes del 3D mediante la composición de una difusión previa angular. A través de una evaluación exhaustiva, demostramos que Vista3D mantiene efectivamente un equilibrio entre la consistencia y la diversidad de los objetos 3D generados. Las demostraciones y el código estarán disponibles en https://github.com/florinshen/Vista3D.
En este artículo, presentamos SoloAudio, un novedoso modelo generativo basado en difusión para la extracción de sonidos objetivo (TSE, por sus siglas en inglés). Nuestro enfoque entrena modelos de difusión latente en audio, reemplazando la estructura U-Net anterior con un Transformador conectado por saltos que opera en características latentes. SoloAudio admite tanto la TSE orientada al audio como la orientada al lenguaje al utilizar un modelo CLAP como extractor de características para los sonidos objetivo. Además, SoloAudio aprovecha audio sintético generado por modelos de texto a audio de última generación para el entrenamiento, demostrando una fuerte generalización a datos fuera del dominio y eventos de sonido no vistos. Evaluamos este enfoque en el conjunto de datos de mezcla FSD Kaggle 2018 y en datos reales de AudioSet, donde SoloAudio logra resultados de vanguardia tanto en datos dentro como fuera del dominio, y exhibe impresionantes capacidades de cero disparos y de pocos disparos. Se ha publicado el código fuente y demos.
Presentamos la Subtitulación de Audio Basada en Difusión (DAC), un modelo de difusión no autoregresivo diseñado para la subtitulación de audio diversa y eficiente. Aunque los modelos de subtitulación existentes que dependen de espinazos lingüísticos han logrado un éxito notable en diversas tareas de subtitulación, su rendimiento insuficiente en cuanto a velocidad de generación y diversidad obstaculiza el progreso en la comprensión de audio y aplicaciones multimedia. Nuestro marco basado en difusión ofrece ventajas únicas derivadas de su estocasticidad inherente y modelado de contexto holístico en la subtitulación. A través de una evaluación rigurosa, demostramos que DAC no solo alcanza niveles de rendimiento de última generación en comparación con los puntos de referencia existentes en la calidad de los subtítulos, sino que también los supera significativamente en cuanto a velocidad y diversidad de generación. El éxito de DAC ilustra que la generación de texto también puede integrarse de manera fluida con tareas de generación de audio y visual utilizando un espinazo de difusión, allanando el camino para un modelo generativo unificado relacionado con el audio a través de diferentes modalidades.
El aprendizaje por refuerzo multiagente (MARL) sin conexión es una dirección emocionante de investigación que utiliza conjuntos de datos estáticos para encontrar políticas de control óptimas para sistemas multiagente. Aunque el campo es, por definición, impulsado por datos, hasta ahora los esfuerzos han descuidado los datos en su afán por lograr resultados de vanguardia. Primero respaldamos esta afirmación mediante una revisión de la literatura, mostrando cómo la mayoría de los trabajos generan sus propios conjuntos de datos sin una metodología consistente y proporcionan poca información sobre las características de estos conjuntos de datos. Luego demostramos por qué descuidar la naturaleza de los datos es problemático, a través de ejemplos destacados de cómo el rendimiento algorítmico está estrechamente vinculado al conjunto de datos utilizado, lo que hace necesaria una base común para experimentos en el campo. En respuesta, damos un gran paso hacia la mejora del uso de datos y la conciencia de datos en MARL sin conexión, con tres contribuciones clave: (1) una guía clara para generar conjuntos de datos novedosos; (2) una estandarización de más de 80 conjuntos de datos existentes, alojados en un repositorio de acceso público, utilizando un formato de almacenamiento consistente y una API fácil de usar; y (3) un conjunto de herramientas de análisis que nos permiten comprender mejor estos conjuntos de datos, facilitando un mayor desarrollo.
Las matemáticas han sido transmitidas durante mucho tiempo a través del lenguaje natural, principalmente para la comprensión humana. Con el surgimiento de las matemáticas mecanizadas y asistentes de prueba, hay una creciente necesidad de comprender el texto matemático informal, sin embargo, la mayoría de los benchmarks existentes se centran únicamente en inglés, pasando por alto otros idiomas. Este documento presenta RoMath, un conjunto de benchmarks de razonamiento matemático rumano que comprende tres conjuntos de datos: RoMath-Baccalaureate, RoMath-Competitions y RoMath-Synthetic, que cubren una variedad de dominios matemáticos y niveles de dificultad, con el objetivo de mejorar los modelos de idiomas no ingleses y promover el desarrollo de IA multilingüe. Al centrarse en el rumano, un idioma de recursos limitados con características lingüísticas únicas, RoMath aborda las limitaciones de los modelos anglocéntricos y enfatiza la necesidad de recursos dedicados más allá de una simple traducción automática. Evaluamos varios modelos de lenguaje de peso abierto, resaltando la importancia de crear recursos para idiomas subrepresentados. Ponemos a disposición el código y el conjunto de datos.
Los agentes de IA tienen el potencial de ayudar a los usuarios en una variedad de tareas importantes, incluida la realización de investigaciones científicas. Para impulsar el desarrollo de agentes útiles, necesitamos referencias que sean desafiantes, pero, sobre todo, que se correspondan directamente con tareas del mundo real de interés. Este documento presenta una referencia de este tipo, diseñada para medir la precisión de los agentes de IA al abordar un aspecto crucial pero sorprendentemente desafiante de la investigación científica: la reproducibilidad computacional. Esta tarea, fundamental para el proceso científico, implica reproducir los resultados de un estudio utilizando el código y los datos proporcionados. Presentamos CORE-Bench (Banco de Pruebas de Agentes de Reproducibilidad Computacional), una referencia que consta de 270 tareas basadas en 90 artículos científicos en tres disciplinas (informática, ciencias sociales y medicina). Las tareas en CORE-Bench se dividen en tres niveles de dificultad e incluyen tareas solo de lenguaje y de visión-lenguaje. Proporcionamos un sistema de evaluación para medir la precisión de los agentes de manera rápida y paralela, ahorrando días de tiempo de evaluación en cada ejecución en comparación con una implementación secuencial. Evaluamos dos agentes base: el AutoGPT de propósito general y un agente específico de la tarea llamado CORE-Agent. Probamos ambas variantes utilizando dos modelos de lenguaje subyacentes: GPT-4o y GPT-4o-mini. El mejor agente logró una precisión del 21% en la tarea más difícil, mostrando un amplio margen para mejorar la automatización de tareas científicas rutinarias. Contar con agentes que puedan reproducir trabajos existentes es un paso necesario hacia la construcción de agentes que puedan realizar investigaciones novedosas y verificar y mejorar el rendimiento de otros agentes de investigación. Esperamos que CORE-Bench pueda mejorar el estado de la reproducibilidad y fomentar el desarrollo de futuros agentes de investigación.
La reconstrucción de imágenes 3D a partir de datos de Resonancia Magnética Funcional (fMRI), presentada como Recon3DMind en nuestro trabajo de conferencia, es de gran interés tanto para la neurociencia cognitiva como para la visión por computadora. Para avanzar en esta tarea, presentamos el conjunto de datos fMRI-3D, que incluye datos de 15 participantes y muestra un total de 4768 objetos 3D. El conjunto de datos consta de dos componentes: fMRI-Forma, previamente presentado y accesible en https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, y fMRI-Objaverse, propuesto en este documento y disponible en https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse incluye datos de 5 sujetos, 4 de los cuales también forman parte del conjunto principal en fMRI-Forma, con cada sujeto visualizando 3142 objetos 3D en 117 categorías, todos acompañados de leyendas de texto. Esto mejora significativamente la diversidad y las aplicaciones potenciales del conjunto de datos. Además, proponemos MinD-3D, un nuevo marco diseñado para decodificar información visual 3D a partir de señales fMRI. El marco primero extrae y agrega características de los datos fMRI utilizando un codificador de neuro-fusión, luego emplea un modelo de difusión de puente de características para generar características visuales, y finalmente reconstruye el objeto 3D utilizando un decodificador transformador generativo. Establecemos nuevos puntos de referencia diseñando métricas en niveles semánticos y estructurales para evaluar el rendimiento del modelo. Además, evaluamos la efectividad de nuestro modelo en un entorno Fuera de Distribución y analizamos la atribución de las características extraídas y las ROI visuales en las señales fMRI. Nuestros experimentos demuestran que MinD-3D no solo reconstruye objetos 3D con alta precisión semántica y espacial, sino que también profundiza nuestra comprensión de cómo el cerebro humano procesa información visual 3D. Página del proyecto en: https://jianxgao.github.io/MinD-3D.
Al abordar el desafío de la Sumarización de Múltiples Documentos (MDS), se han propuesto numerosos métodos, abarcando tanto técnicas de sumarización extractivas como abtractivas. Sin embargo, cada enfoque tiene sus propias limitaciones, lo que hace menos efectivo depender únicamente de uno u otro. Una estrategia emergente y prometedora implica una fusión sinérgica de métodos de sumarización extractivos y abtractivos. A pesar de la multitud de estudios en este ámbito, la investigación sobre la metodología combinada sigue siendo escasa, especialmente en el contexto del procesamiento del lenguaje vietnamita. Este artículo presenta un novedoso marco de trabajo vietnamita para MDS que aprovecha una arquitectura de dos componentes en serie que integra técnicas extractivas y abtractivas. El primer componente emplea un enfoque extractivo para identificar frases clave dentro de cada documento. Esto se logra mediante una modificación de la red BERT pre-entrenada, que deriva incrustaciones de frases semánticamente significativas utilizando estructuras de red siamesa y de tripletes. El segundo componente utiliza el modelo VBD-LLaMA2-7B-50b para la sumarización abtractiva, generando en última instancia el documento de resumen final. Nuestro marco propuesto demuestra un rendimiento positivo, logrando puntuaciones ROUGE-2 del 39.6% en el conjunto de datos VN-MDS y superando a los baselines de vanguardia.
Los valores humanos y su medición son objeto de una larga investigación interdisciplinaria. Los avances recientes en IA han despertado un renovado interés en esta área, con los grandes modelos de lenguaje (LLMs) surgiendo tanto como herramientas como sujetos de medición de valores. Este trabajo presenta la Psicometría Generativa para Valores (GPV), un paradigma de medición de valores basado en LLM, impulsado por datos y fundamentado teóricamente en percepciones selectivas reveladas en texto. Comenzamos afinando un LLM para una medición precisa de valores a nivel de percepción y verificando la capacidad de los LLM para analizar textos en percepciones, formando el núcleo del proceso de GPV. Al aplicar GPV a blogs escritos por humanos, demostramos su estabilidad, validez y superioridad sobre herramientas psicológicas previas. Luego, al extender GPV a la medición de valores de LLM, avanzamos en el arte actual con 1) una metodología psicométrica que mide los valores de LLM en función de sus salidas escalables y de formato libre, permitiendo una medición específica del contexto; 2) un análisis comparativo de paradigmas de medición, indicando sesgos de respuesta de métodos anteriores; y 3) un intento de vincular los valores de LLM y su seguridad, revelando el poder predictivo de diferentes sistemas de valores y los impactos de varios valores en la seguridad de LLM. A través de esfuerzos interdisciplinarios, buscamos aprovechar la IA para la psicometría de próxima generación y la psicometría para una IA alineada con valores.