Artículos de investigación en IA seleccionados diariamente con traducciones
Los Campos de Radiación Neurales (NeRF) enfrentan desafíos significativos en escenarios de poca cantidad de datos, principalmente debido al sobreajuste y a los largos tiempos de entrenamiento para renderizado de alta fidelidad. Métodos existentes, como FreeNeRF y SparseNeRF, utilizan regularización de frecuencia o priors pre-entrenados pero tienen dificultades con la programación compleja y sesgos. Presentamos FrugalNeRF, un nuevo marco de trabajo NeRF de poca cantidad de datos que aprovecha la compartición de pesos en voxels a través de múltiples escalas para representar eficientemente detalles de escena. Nuestra contribución clave es un esquema de adaptación geométrica entre escalas que selecciona profundidades pseudo verdaderas basadas en errores de reproyección a través de escalas. Esto guía el entrenamiento sin depender de priors aprendidos externamente, permitiendo la utilización completa de los datos de entrenamiento. También puede integrar priors pre-entrenados, mejorando la calidad sin ralentizar la convergencia. Experimentos en LLFF, DTU y RealEstate-10K muestran que FrugalNeRF supera a otros métodos NeRF de poca cantidad de datos mientras reduce significativamente el tiempo de entrenamiento, convirtiéndolo en una solución práctica para la reconstrucción eficiente y precisa de escenas 3D.
El Modelo Segment Anything 2 (SAM 2) ha surgido como un modelo base potente para la segmentación de objetos en imágenes y videos, allanando el camino para diversas aplicaciones de video posteriores. El diseño crucial de SAM 2 para la segmentación de video es su módulo de memoria, que genera memorias conscientes de objetos de fotogramas anteriores para la predicción del fotograma actual. Sin embargo, su diseño de memoria de selección ávida sufre del problema de "acumulación de errores", donde una máscara con errores o perdida se propagará e influirá en la segmentación de los fotogramas subsecuentes, lo que limita el rendimiento de SAM 2 hacia videos complejos a largo plazo. Con este fin, presentamos SAM2Long, una estrategia mejorada de segmentación de objetos en video sin entrenamiento, que considera la incertidumbre de segmentación dentro de cada fotograma y elige los resultados óptimos a nivel de video de múltiples trayectorias de segmentación de manera restringida mediante búsqueda en árbol. En la práctica, mantenemos un número fijo de trayectorias de segmentación a lo largo del video. Para cada fotograma, se proponen múltiples máscaras basadas en las trayectorias existentes, creando diversas ramas candidatas. Luego seleccionamos el mismo número fijo de ramas con puntajes acumulativos más altos como las nuevas trayectorias para el siguiente fotograma. Después de procesar el fotograma final, se elige la trayectoria con el puntaje acumulativo más alto como el resultado final de segmentación. Beneficiándose de su diseño de búsqueda heurística, SAM2Long es robusto ante oclusiones y reapariciones de objetos, y puede segmentar y rastrear objetos de manera efectiva en videos complejos a largo plazo. Es importante destacar que SAM2Long logra una mejora promedio de 3.0 puntos en todas las 24 comparaciones directas, con ganancias de hasta 5.3 puntos en J&F en bancos de pruebas de segmentación de objetos en video a largo plazo como SA-V y LVOS. El código está disponible en https://github.com/Mark12Ding/SAM2Long.
La evaluación eficiente y precisa es crucial para la mejora continua de los modelos de lenguaje grandes (LLMs). Entre varios métodos de evaluación, la evaluación subjetiva ha recibido una atención significativa debido a su alineación superior con escenarios de uso del mundo real y preferencias humanas. Sin embargo, las evaluaciones basadas en humanos son costosas y carecen de reproducibilidad, lo que hace que los evaluadores automáticos precisos (jueces) sean vitales en este proceso. En este informe, presentamos CompassJudger-1, el primer juez LLM de código abierto todo en uno. CompassJudger-1 es un LLM de propósito general que demuestra una versatilidad notable. Es capaz de: 1. Realizar puntuaciones unitarias y comparaciones de dos modelos como un modelo de recompensa; 2. Realizar evaluaciones según formatos especificados; 3. Generar críticas; 4. Ejecutar diversas tareas como un LLM general. Para evaluar las capacidades de evaluación de diferentes modelos de jueces en un entorno unificado, también hemos establecido JudgerBench, un nuevo punto de referencia que abarca varias tareas de evaluación subjetiva y cubre una amplia gama de temas. CompassJudger-1 ofrece una solución integral para varias tareas de evaluación manteniendo la flexibilidad para adaptarse a diversos requisitos. Tanto CompassJudger como JudgerBench se han publicado y están disponibles para la comunidad de investigación en https://github.com/open-compass/CompassJudger. Creemos que al abrir el código de estas herramientas, podemos fomentar la colaboración y acelerar el progreso en las metodologías de evaluación de LLM.
Con los avances en modelos de código abierto, el entrenamiento (o ajuste fino) de modelos en conjuntos de datos personalizados se ha convertido en una parte crucial del desarrollo de soluciones adaptadas a aplicaciones industriales específicas o de código abierto. Sin embargo, no existe una única herramienta que simplifique el proceso de entrenamiento en diferentes tipos de modalidades o tareas. Presentamos AutoTrain (también conocido como AutoTrain Advanced) - una herramienta/biblioteca de código abierto que se puede utilizar para entrenar (o ajustar fino) modelos para diferentes tipos de tareas como: ajuste fino de modelos de lenguaje grande (LLM), clasificación/regresión de texto, clasificación de tokens, tarea de secuencia a secuencia, ajuste fino de transformadores de oraciones, ajuste fino de modelos de lenguaje visual (VLM), clasificación/regresión de imágenes e incluso tareas de clasificación y regresión en datos tabulares. AutoTrain Advanced es una biblioteca de código abierto que proporciona las mejores prácticas para entrenar modelos en conjuntos de datos personalizados. La biblioteca está disponible en https://github.com/huggingface/autotrain-advanced. AutoTrain se puede utilizar en modo completamente local o en máquinas en la nube y funciona con decenas de miles de modelos compartidos en Hugging Face Hub y sus variaciones.
Los recientes avances en modelos de base multimodal han generado un progreso significativo en la comprensión visión-lenguaje. Los intentos iniciales también han explorado el potencial de los grandes modelos de lenguaje multimodales (MLLMs) para la generación de contenido visual. Sin embargo, los trabajos existentes no han abordado adecuadamente las demandas de granularidad variables de diferentes tareas de generación de imágenes dentro de un paradigma unificado MLLM, desde la diversidad requerida en la generación de texto a imagen hasta la precisión necesaria en la manipulación de imágenes. En este trabajo, proponemos PUMA, Potenciando MLLM Unificado con generación visual Multi-granular. PUMA unifica características visuales multi-granulares como entradas y salidas de MLLMs, abordando de manera elegante los diferentes requisitos de granularidad de diversas tareas de generación de imágenes dentro de un marco MLLM unificado. Tras el preentrenamiento multimodal y la sintonización de instrucciones específicas de la tarea, PUMA demuestra competencia en una amplia gama de tareas multimodales. Este trabajo representa un paso significativo hacia un MLLM verdaderamente unificado capaz de adaptarse a las demandas de granularidad de diversas tareas visuales. El código y el modelo se publicarán en https://github.com/rongyaofang/PUMA.
Presentamos Baichuan Alignment, un análisis detallado de las técnicas de alineación empleadas en la serie de modelos Baichuan. Esto representa el primer informe exhaustivo de metodologías de alineación en la industria, ofreciendo ideas valiosas para avanzar en la investigación de IA. Investigamos los componentes críticos que mejoran el rendimiento del modelo durante el proceso de alineación, incluyendo métodos de optimización, estrategias de datos, mejoras de capacidades y procesos de evaluación. El proceso abarca tres etapas clave: Sistema de Aumento de Prompt (PAS), Ajuste Fino Supervisado (SFT) y Alineación de Preferencias. Los problemas encontrados, las soluciones aplicadas y las mejoras realizadas están registradas exhaustivamente. A través de comparaciones en benchmarks bien establecidos, destacamos los avances tecnológicos habilitados por Baichuan Alignment. Baichuan-Instruct es un modelo interno, mientras que Qwen2-Nova-72B y Llama3-PBM-Nova-70B son versiones instruct de los modelos base Qwen2-72B y Llama-3-70B, optimizados mediante Baichuan Alignment. Baichuan-Instruct muestra mejoras significativas en capacidades centrales, con mejoras en la experiencia del usuario que van del 17% al 28%, y tiene un rendimiento excepcional en benchmarks especializados. En evaluaciones de benchmarks de código abierto, tanto Qwen2-Nova-72B como Llama3-PBM-Nova-70B superan consistentemente a sus respectivas versiones instruct oficiales en casi todos los conjuntos de datos. Este informe tiene como objetivo aclarar las tecnologías clave detrás del proceso de alineación, fomentando una comprensión más profunda dentro de la comunidad. El modelo Llama3-PBM-Nova-70B está disponible en https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
El ajuste fino supervisado (SFT) es crucial para adaptar modelos de lenguaje grandes (LLMs) a un dominio o tarea específica. Sin embargo, en aplicaciones prácticas solo se dispone de una cantidad limitada de datos etiquetados, lo que plantea un desafío severo para el SFT en la obtención de resultados satisfactorios. Por lo tanto, se espera con gran interés un marco de trabajo eficiente en datos que pueda aprovechar completamente los datos etiquetados y no etiquetados para el ajuste fino de LLM. Con este fin, presentamos un marco de trabajo de ajuste fino semi-supervisado llamado SemiEvol para la adaptación de LLM desde un enfoque de propagación y selección. Para la propagación de conocimiento, SemiEvol adopta un enfoque de dos niveles, propagando conocimiento desde datos etiquetados a datos no etiquetados a través de métodos tanto de peso interno como de contexto interno. Para la selección de conocimiento, SemiEvol incorpora un mecanismo de aprendizaje colaborativo, seleccionando muestras de pseudo-respuestas de mayor calidad. Realizamos experimentos utilizando GPT-4o-mini y Llama-3.1 en siete conjuntos de datos generales o específicos de dominio, demostrando mejoras significativas en el rendimiento del modelo en los datos objetivo. Además, comparamos SemiEvol con SFT y métodos de auto-evolución, resaltando su practicidad en escenarios de datos híbridos.
A pesar de los avances recientes en modelos de lenguaje multimodales de gran tamaño (MLLMs), su desarrollo se ha centrado predominantemente en conjuntos de datos y tareas en inglés y occidentales, dejando la mayoría de los idiomas del mundo y diversos contextos culturales subrepresentados. Este artículo presenta Pangea, un MLLM multilingüe multimodal entrenado en PangeaIns, un conjunto de datos diverso de 6 millones de instrucciones que abarca 39 idiomas. PangeaIns presenta: 1) instrucciones en inglés de alta calidad, 2) instrucciones traducidas cuidadosamente por máquina y 3) tareas multimodales culturalmente relevantes para garantizar una cobertura intercultural. Para evaluar rigurosamente las capacidades de los modelos, presentamos PangeaBench, un conjunto de evaluación integral que abarca 14 conjuntos de datos que cubren 47 idiomas. Los resultados muestran que Pangea supera significativamente a los modelos de código abierto existentes en entornos multilingües y diversos contextos culturales. Estudios de abstracción revelan además la importancia de las proporciones de datos en inglés, la popularidad del idioma y el número de muestras de entrenamiento multimodales en el rendimiento general. Ponemos completamente en código abierto nuestros datos, código y puntos de control entrenados, para facilitar el desarrollo de MLLMs multilingües inclusivos y robustos, promoviendo la equidad y accesibilidad en un espectro lingüístico y cultural más amplio.
Los modelos de recompensa son críticos en técnicas como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y las Leyes de Escalado de Inferencia, donde guían la alineación del modelo de lenguaje y seleccionan respuestas óptimas. A pesar de su importancia, los bancos de pruebas de modelos de recompensa existentes a menudo evalúan los modelos pidiéndoles que distingan entre respuestas generadas por modelos de diferentes capacidades. Sin embargo, este enfoque no logra evaluar los modelos de recompensa en cambios de contenido sutiles pero críticos y variaciones en el estilo, lo que resulta en una baja correlación con el rendimiento del modelo de política. Con este fin, presentamos RM-Bench, un nuevo banco de pruebas diseñado para evaluar los modelos de recompensa en función de su sensibilidad a las diferencias sutiles de contenido y su resistencia a los sesgos de estilo. Experimentos extensos demuestran que RM-Bench correlaciona fuertemente con el rendimiento del modelo de política, convirtiéndolo en una referencia confiable para seleccionar modelos de recompensa y alinear eficazmente los modelos de lenguaje. Evaluamos casi 40 modelos de recompensa en RM-Bench. Nuestros resultados revelan que incluso los modelos de última generación logran un rendimiento promedio de solo el 46.6%, que no alcanza la precisión a nivel aleatorio (50%) cuando se enfrentan a interferencias de sesgo de estilo. Estos hallazgos resaltan el significativo margen de mejora en los modelos de recompensa actuales. El código y los datos relacionados están disponibles en https://github.com/THU-KEG/RM-Bench.
La Generación con Recuperación Aumentada (RAG), si bien sirve como un complemento viable para los modelos de lenguaje grandes (LLMs), a menudo pasa por alto el aspecto crucial de la segmentación de texto dentro de su proceso, lo cual afecta la calidad de tareas intensivas en conocimiento. Este artículo introduce el concepto de Meta-Segmentación, que se refiere a una granularidad entre oraciones y párrafos, consistente en una colección de oraciones dentro de un párrafo que tienen conexiones lógicas lingüísticas profundas. Para implementar la Meta-Segmentación, diseñamos dos estrategias basadas en LLMs: Segmentación por Muestreo de Margen y Segmentación por Perplejidad. La primera utiliza LLMs para realizar una clasificación binaria sobre si las oraciones consecutivas deben ser segmentadas, tomando decisiones basadas en la diferencia de probabilidad obtenida a partir del muestreo de margen. La segunda identifica con precisión los límites de los fragmentos de texto analizando las características de la distribución de perplejidad. Además, considerando la complejidad inherente de diferentes textos, proponemos una estrategia que combina la Meta-Segmentación con la fusión dinámica para lograr un equilibrio entre la segmentación de texto detallada y gruesa. Experimentos realizados en once conjuntos de datos demuestran que la Meta-Segmentación puede mejorar de manera más eficiente el rendimiento de preguntas de un salto y de múltiples saltos basadas en RAG. Por ejemplo, en el conjunto de datos 2WikiMultihopQA, supera a la segmentación por similitud en 1.32 mientras solo consume el 45.8% del tiempo. Nuestro código está disponible en https://github.com/IAAR-Shanghai/Meta-Segmentación.
La destilación del conocimiento (KD) tiene como objetivo transferir conocimiento de un modelo docente grande a un modelo estudiantil más pequeño. Trabajos previos que aplican KD en el campo de los grandes modelos de lenguaje (LLMs) típicamente se centraron en la fase posterior al entrenamiento, donde el LLM estudiantil aprende directamente de las instrucciones y respuestas correspondientes generadas por el modelo docente. En este documento, extendemos KD a la fase de pre-entrenamiento de LLMs, denominada destilación de pre-entrenamiento (PD). Realizamos primero un experimento preliminar utilizando GLM-4-9B como el LLM docente para destilar un LLM estudiantil de 1.9B parámetros, validando la efectividad de PD. Considerando los factores clave de impacto de la destilación, exploramos sistemáticamente el espacio de diseño de la destilación de pre-entrenamiento en cuatro aspectos: procesamiento de logits, selección de pérdida, ley de escala y logits en línea u offline. Realizamos experimentos extensos para explorar el espacio de diseño de la destilación de pre-entrenamiento y encontrar configuraciones mejores y conclusiones interesantes, como que los LLMs estudiantiles más grandes generalmente se benefician más de la destilación de pre-entrenamiento, mientras que un LLM docente más grande no garantiza necesariamente mejores resultados. Esperamos que nuestra exploración del espacio de diseño informe las prácticas futuras en la destilación de pre-entrenamiento.
Las demostraciones formales son difíciles de redactar incluso para expertos experimentados. El progreso reciente en la Demostración de Teoremas Neurales (DTN) muestra promesas para acelerar este proceso. Sin embargo, las corpora formales disponibles en Internet son limitadas en comparación con el texto general, lo que plantea un desafío significativo de escasez de datos para la DTN. Para abordar este problema, este trabajo propone Alquimia, un marco general para la síntesis de datos que construye teoremas formales a través de mutaciones simbólicas. Específicamente, para cada teorema candidato en Mathlib, identificamos todos los teoremas invocables que se pueden utilizar para reescribirlo o aplicarlo. Posteriormente, mutamos el teorema candidato reemplazando el término correspondiente en la declaración con su forma equivalente o antecedente. Como resultado, nuestro método aumenta el número de teoremas en Mathlib en un orden de magnitud, de 110k a 6M. Además, realizamos un preentrenamiento continuo y un ajuste fino supervisado en este corpus aumentado para modelos de lenguaje grandes. Los resultados experimentales demuestran la efectividad de nuestro enfoque, logrando una mejora de rendimiento absoluta del 5% en el benchmark de Leandojo. Además, nuestros datos sintéticos logran una ganancia de rendimiento absoluto del 2.5% en el benchmark miniF2F fuera de la distribución. Para proporcionar más información, realizamos un análisis exhaustivo de la composición de datos sintéticos y el paradigma de entrenamiento, ofreciendo orientación valiosa para el desarrollo de un potente demostrador de teoremas.
Los Modelos de Lenguaje Grandes (LLMs) han revolucionado el procesamiento del lenguaje natural, pero su aplicación a tareas basadas en el habla sigue siendo desafiante debido a las complejidades de integrar las modalidades de audio y texto. Este documento presenta Ichigo, un modelo multimodal que procesa de manera fluida secuencias entrelazadas de habla y texto. Utilizando un enfoque de fusión temprana tokenizado, Ichigo cuantiza el habla en tokens discretos y emplea una arquitectura uniforme basada en transformadores para ambas modalidades, habla y texto. Este método permite razonamiento y generación conjuntos entre modalidades sin necesidad de adaptadores separados. Presentamos una metodología de entrenamiento integral, que incluye pre-entrenamiento en conjuntos de datos multilingües de reconocimiento de habla y ajuste fino en un conjunto de datos de instrucciones seleccionado. Ichigo demuestra un rendimiento de vanguardia en bancos de pruebas de preguntas y respuestas de habla, superando a los modelos de lenguaje de habla de código abierto existentes y logrando resultados comparables a sistemas en cascada. Es destacable que Ichigo presenta una latencia de tan solo 111 ms para la generación del primer token, significativamente menor que los modelos actuales. Nuestro enfoque no solo avanza en el campo de la IA multimodal, sino que también proporciona un marco para que equipos de investigación más pequeños contribuyan de manera efectiva a modelos de lenguaje de habla de código abierto.
Las capacidades emergentes de cero disparo de los Modelos de Lenguaje Grandes (LLMs) han llevado a su aplicación en áreas que se extienden mucho más allá de las tareas de procesamiento de lenguaje natural. En el aprendizaje por refuerzo, si bien los LLMs se han utilizado ampliamente en entornos basados en texto, su integración con espacios de estado continuo sigue siendo poco estudiada. En este documento, investigamos cómo los LLMs pre-entrenados pueden ser aprovechados para predecir en contexto la dinámica de procesos de decisión de Markov continuos. Identificamos el manejo de datos multivariados y la incorporación de la señal de control como desafíos clave que limitan el potencial despliegue de los LLMs en esta configuración y proponemos el Aprendizaje Disentangled In-Context (DICL) para abordarlos. Presentamos aplicaciones de prueba de concepto en dos entornos de aprendizaje por refuerzo: evaluación de políticas basadas en modelos y aprendizaje por refuerzo fuera de política aumentado con datos, respaldado por un análisis teórico de los métodos propuestos. Nuestros experimentos demuestran además que nuestro enfoque produce estimaciones de incertidumbre bien calibradas. Publicamos el código en https://github.com/abenechehab/dicl.
La expansión de modelos de lenguaje grandes para manejar efectivamente instrucciones con contextos extremadamente largos aún no ha sido completamente investigada. El principal obstáculo radica en la construcción de un conjunto de datos de alta calidad para seguir instrucciones a largo plazo, diseñado para el alineamiento de contextos largos. Estudios existentes han intentado escalar el volumen de datos disponible mediante la síntesis de muestras de seguimiento de instrucciones a largo plazo. Sin embargo, aumentar indiscriminadamente la cantidad de datos sin una estrategia bien definida para garantizar la calidad de los datos puede introducir muestras de baja calidad y limitar el rendimiento final. Para cerrar esta brecha, nuestro objetivo es abordar el desafío único del alineamiento de contextos largos, es decir, modelar las dependencias a largo plazo para manejar instrucciones y contextos de entrada extensos. Proponemos GATEAU, un marco novedoso diseñado para identificar las muestras influyentes y de alta calidad enriquecidas con relaciones de dependencia a largo plazo mediante el uso de la Guía de Modelos Homólogos (HMG) y la Medición de Conciencia Contextual (CAM). Específicamente, HMG intenta medir la dificultad de generar respuestas correspondientes debido a las dependencias a largo plazo, utilizando las puntuaciones de perplejidad de la respuesta de dos modelos homólogos con diferentes ventanas de contexto. Además, el papel de CAM es medir la dificultad de comprender los contextos de entrada largos debido a las dependencias a largo plazo evaluando si la atención del modelo se centra en segmentos importantes. Basándonos en ambos métodos propuestos, seleccionamos las muestras más desafiantes como los datos influyentes para enmarcar efectivamente las dependencias a largo plazo, logrando así un mejor rendimiento de los LLMs. Experimentos exhaustivos indican que GATEAU identifica efectivamente muestras enriquecidas con relaciones de dependencia a largo plazo y que el modelo entrenado con estas muestras seleccionadas muestra mejores capacidades de seguimiento de instrucciones y comprensión de contextos largos.
Los modelos de texto a imagen se entrenan utilizando grandes conjuntos de datos recopilados mediante la extracción de pares de imágenes y texto de internet. Estos conjuntos de datos a menudo incluyen material privado, con derechos de autor y con licencia. Entrenar modelos con tales conjuntos de datos les permite generar imágenes con dicho contenido, lo que podría violar las leyes de copyright y la privacidad individual. Este fenómeno se denomina imitación: la generación de imágenes con contenido que tiene una similitud reconocible con sus imágenes de entrenamiento. En este trabajo estudiamos la relación entre la frecuencia de un concepto en el conjunto de datos de entrenamiento y la capacidad de un modelo para imitarlo. Buscamos determinar el punto en el que un modelo fue entrenado con suficientes instancias para imitar un concepto: el umbral de imitación. Planteamos esta cuestión como un nuevo problema: Encontrar el Umbral de Imitación (FIT) y proponemos un enfoque eficiente que estima el umbral de imitación sin incurrir en el enorme costo de entrenar múltiples modelos desde cero. Experimentamos con dos dominios: rostros humanos y estilos artísticos, para los cuales creamos cuatro conjuntos de datos, y evaluamos tres modelos de texto a imagen que fueron entrenados en dos conjuntos de datos de preentrenamiento. Nuestros resultados revelan que el umbral de imitación de estos modelos se encuentra en el rango de 200-600 imágenes, dependiendo del dominio y del modelo. El umbral de imitación puede proporcionar una base empírica para reclamos de violación de copyright y actúa como un principio rector para los desarrolladores de modelos de texto a imagen que buscan cumplir con las leyes de copyright y privacidad. Publicamos el código y los datos en https://github.com/vsahil/MIMETIC-2.git y el sitio web del proyecto está alojado en https://how-many-van-goghs-does-it-take.github.io.
Presentamos Agent-to-Sim (ATS), un marco para aprender modelos de comportamiento interactivo de agentes 3D a partir de colecciones de videos longitudinales casuales. A diferencia de trabajos anteriores que dependen de seguimiento basado en marcadores y cámaras multivista, ATS aprende comportamientos naturales de agentes animales y humanos de forma no invasiva a través de observaciones en video grabadas a lo largo de un largo período de tiempo (por ejemplo, un mes) en un único entorno. Modelar el comportamiento 3D de un agente requiere un seguimiento 3D persistente (por ejemplo, saber qué punto corresponde a cuál) a lo largo de un largo período de tiempo. Para obtener estos datos, desarrollamos un método de registro de grueso a fino que sigue al agente y la cámara a lo largo del tiempo a través de un espacio 3D canónico, lo que resulta en una representación espacio-temporal 4D completa y persistente. Luego entrenamos un modelo generativo de comportamientos de agentes utilizando datos emparejados de percepción y movimiento de un agente extraídos de la reconstrucción 4D. ATS permite la transferencia de real a simulado desde grabaciones de video de un agente a un simulador de comportamiento interactivo. Demostramos resultados en mascotas (por ejemplo, gato, perro, conejo) y humanos a partir de videos monoculares RGBD capturados por un teléfono inteligente.
Existe una brecha significativa entre las necesidades de los pacientes y el apoyo disponible en salud mental en la actualidad. En este documento, nuestro objetivo es examinar a fondo el potencial de utilizar Modelos de Lenguaje Extensos (MLE) para asistir en psicoterapia profesional. Con este fin, proponemos un nuevo punto de referencia, CBT-BENCH, para la evaluación sistemática de la asistencia en terapia cognitivo-conductual (TCC). Incluimos tres niveles de tareas en CBT-BENCH: I: Adquisición de conocimientos básicos de TCC, con la tarea de preguntas de opción múltiple; II: Comprensión del modelo cognitivo, con las tareas de clasificación de distorsiones cognitivas, clasificación de creencias centrales primarias y clasificación de creencias centrales detalladas; III: Generación de respuestas terapéuticas, con la tarea de generar respuestas al discurso del paciente en sesiones de terapia de TCC. Estas tareas abarcan aspectos clave de la TCC que podrían ser mejorados potencialmente mediante la asistencia de IA, al mismo tiempo que delinean una jerarquía de requisitos de capacidad, que van desde la recitación de conocimientos básicos hasta participar en conversaciones terapéuticas reales. Evaluamos MLE representativos en nuestro punto de referencia. Los resultados experimentales indican que si bien los MLE tienen un buen desempeño en la recitación de conocimientos de TCC, fallan en escenarios del mundo real complejos que requieren un análisis profundo de las estructuras cognitivas de los pacientes y la generación de respuestas efectivas, lo que sugiere posibles trabajos futuros.
Los modelos tradicionales de transformadores a menudo asignan una cantidad fija de recursos computacionales a cada token de entrada, lo que resulta en una computación ineficiente y no necesaria. Para abordar esto, se introdujo la Mezcla de Profundidades (MoD) para ajustar dinámicamente la profundidad computacional al omitir capas menos importantes. A pesar de su promesa, los enfoques actuales de MoD siguen siendo poco explorados y enfrentan dos desafíos principales: (1) altos costos de entrenamiento debido a la necesidad de entrenar el modelo completo junto con los enrutadores que determinan qué capas omitir, y (2) el riesgo de degradación del rendimiento al omitir capas importantes. En respuesta al primer problema, proponemos Ajuste de Enrutador, un método que ajusta finamente solo el enrutador en un pequeño conjunto de datos, reduciendo drásticamente la sobrecarga computacional asociada con el entrenamiento completo del modelo. Para el segundo desafío, proponemos MindSkip, que implementa Atención con Profundidades Dinámicas. Este método conserva el rendimiento del modelo mientras mejora significativamente la eficiencia computacional y de memoria. Experimentos extensos demuestran que nuestro enfoque ofrece resultados competitivos al mejorar drásticamente la eficiencia computacional, por ejemplo, un aumento del 21\% en la velocidad y solo una disminución del 0.2\% en el rendimiento. El código está disponible en https://github.com/CASE-Lab-UMD/Router-Tuning.
Los avances recientes en modelos de lenguaje hablado han generado mejoras significativas en la tokenización y síntesis del habla. Sin embargo, mapear efectivamente los atributos complejos y multidimensionales del habla en tokens discretos sigue siendo un desafío. Este proceso requiere información acústica, semántica y contextual para representaciones precisas del habla. Las representaciones del habla existentes generalmente se dividen en dos categorías: tokens acústicos de códecs de audio y tokens semánticos de modelos de aprendizaje auto-supervisado del habla. Aunque los esfuerzos recientes han unificado tokens acústicos y semánticos para mejorar el rendimiento, pasan por alto el papel crucial de la representación contextual en la modelización completa del habla. Nuestras investigaciones empíricas revelan que la ausencia de representaciones contextuales resulta en un aumento en la tasa de error de palabras (WER) y en la pérdida de información de palabras (WIL) en las transcripciones del habla. Para abordar estas limitaciones, proponemos dos enfoques novedosos de destilación: (1) un método de destilación guiado por un modelo de lenguaje (LM) que incorpora información contextual, y (2) una técnica de destilación guiada por LM combinado y modelo auto-supervisado del habla (SM) que destila de manera efectiva representaciones multimodales (acústicas, semánticas y contextuales) en un tokenizador de habla integral, denominado DM-Codec. La arquitectura DM-Codec adopta un marco codificador-decodificador simplificado con un Cuantificador Vectorial Residual (RVQ) e incorpora el LM y el SM durante el proceso de entrenamiento. Los experimentos muestran que DM-Codec supera significativamente a los modelos de tokenización del habla de última generación, reduciendo el WER hasta un 13.46%, el WIL en un 9.82%, y mejorando la calidad del habla en un 5.84% y la inteligibilidad en un 1.85% en el conjunto de datos de referencia LibriSpeech. El código, muestras y puntos de control del modelo están disponibles en https://github.com/mubtasimahasan/DM-Codec.
El objetivo del aprendizaje automático es la generalización. Mientras que el Teorema de No Almuerzo Gratis establece que no podemos obtener garantías teóricas para la generalización sin más suposiciones, en la práctica observamos que los modelos simples que explican los datos de entrenamiento generalizan mejor: un principio llamado navaja de Occam. A pesar de la necesidad de modelos simples, la mayoría de los enfoques actuales en aprendizaje automático solo minimizan el error de entrenamiento, y como máximo promueven la simplicidad de forma indirecta a través de la regularización o el diseño de la arquitectura. Aquí establecemos una conexión entre la navaja de Occam y el aprendizaje en contexto: una habilidad emergente de ciertos modelos de secuencia como los Transformers para aprender en tiempo de inferencia a partir de observaciones pasadas en una secuencia. En particular, demostramos que la pérdida de predicción del siguiente token utilizada para entrenar a los aprendices en contexto es directamente equivalente a una técnica de compresión de datos llamada codificación prequential, y que minimizar esta pérdida equivale a minimizar conjuntamente tanto el error de entrenamiento como la complejidad del modelo que se aprendió implícitamente del contexto. Nuestra teoría y los experimentos empíricos que utilizamos para respaldarla no solo proporcionan una explicación normativa del aprendizaje en contexto, sino que también aclaran las deficiencias de los métodos actuales de aprendizaje en contexto, sugiriendo formas en las que pueden mejorarse. Ponemos nuestro código a disposición en https://github.com/3rdCore/PrequentialCode.
A medida que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se despliegan cada vez más en diversas industrias, han surgido preocupaciones sobre su fiabilidad, especialmente debido a las alucinaciones: salidas que son factualmente inexactas o irrelevantes para la entrada del usuario. Nuestra investigación investiga la relación entre el proceso de entrenamiento y la aparición de alucinaciones para abordar una brecha clave en la investigación existente que se centra principalmente en estrategias de detección y mitigación posteriores. Utilizando modelos de la suite Pythia (70M-12B parámetros) y varios métricas de detección de alucinaciones, analizamos las tendencias de alucinación a lo largo del entrenamiento y exploramos la dinámica interna de los LLMs. Presentamos SEnsitive Neuron Dropout (SeND), un protocolo de entrenamiento novedoso diseñado para mitigar alucinaciones al reducir la varianza durante el entrenamiento. SeND logra esto al eliminar de manera determinista neuronas con variabilidad significativa en un conjunto de datos, denominadas Neuronas Sensibles. Además, desarrollamos una métrica de detección de alucinaciones no supervisada, Efficient EigenScore (EES), que aproxima el EigenScore tradicional con el doble de velocidad. Esta métrica eficiente se integra en nuestro protocolo, lo que permite que SeND sea tanto computacionalmente escalable como efectivo para reducir alucinaciones. Nuestra evaluación empírica demuestra que nuestro enfoque mejora la fiabilidad de los LLMs en el momento de prueba hasta en un 40% en comparación con el entrenamiento normal, al mismo tiempo que proporciona un método eficiente para mejorar la precisión factual al adaptar los LLMs a dominios como Wikipedia y conjuntos de datos médicos.
Evaluar el texto generado por máquinas sigue siendo un desafío significativo en el Procesamiento del Lenguaje Natural (PLN), especialmente para idiomas no ingleses. Las metodologías actuales, que incluyen métricas automatizadas, evaluaciones humanas y evaluaciones basadas en LLM, se centran predominantemente en inglés, revelando una brecha significativa en los marcos de evaluación multilingüe. Presentamos la Suite de Autoevaluación Cruz Lingüística (CIA), un marco extensible que incluye LLM evaluadores (Hércules) y un nuevo conjunto de pruebas (Recon) diseñado específicamente para evaluación multilingüe. Nuestro conjunto de pruebas incluye 500 instrucciones anotadas por humanos que abarcan diversas capacidades de tarea junto con puntajes de juicio humano en seis idiomas. Esto permitiría la comparación de LLM multilingües de propósito general y facilitaría la metaevaluación de LLM Evaluadores. El modelo propuesto, Hércules, es un modelo de evaluación cruz lingüística que aborda la escasez de respuestas de referencia en el idioma objetivo al aprender a asignar puntajes a respuestas basadas en respuestas de referencia fácilmente disponibles en inglés. Nuestros experimentos demuestran que Hércules se alinea más estrechamente con los juicios humanos en comparación con modelos propietarios, lo que demuestra la efectividad de dicha evaluación cruz lingüística en escenarios de recursos limitados. Además, también es efectivo en la evaluación de cero disparo en idiomas no vistos previamente. Este estudio es el primer examen exhaustivo de la evaluación cruz lingüística utilizando LLM, presentando un enfoque escalable y efectivo para la evaluación multilingüe. Todo el código, conjuntos de datos y modelos estarán disponibles públicamente para permitir una mayor investigación en esta área importante.