Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje grandes (LLMs) han logrado un progreso sustancial en el procesamiento de contextos largos, pero aún tienen dificultades con el razonamiento en contextos largos. Los enfoques existentes típicamente implican el ajuste fino de LLMs con datos sintéticos, que dependen de anotaciones de expertos humanos o modelos avanzados como GPT-4, restringiendo así avances adicionales. Para abordar este problema, investigamos el potencial de los LLMs para auto-mejorar en el razonamiento en contextos largos y proponemos \ours, un enfoque diseñado específicamente para este propósito. Este enfoque es directo: muestreamos múltiples salidas para cada pregunta, las evaluamos con Riesgo Bayesiano Mínimo y luego aplicamos ajuste fino supervisado u optimización de preferencias basadas en estas salidas. Experimentos extensos en varios LLMs líderes demuestran la efectividad de \ours, con una mejora absoluta de 4.2 puntos para Llama-3.1-8B-Instruct. Además, \ours logra un rendimiento superior en comparación con enfoques previos que dependen de datos producidos por expertos humanos o modelos avanzados. Anticipamos que este trabajo abrirá nuevas vías para técnicas de auto-mejora en escenarios de contextos largos, esenciales para el avance continuo de los LLMs.
La generación de video ha surgido como una herramienta prometedora para la simulación del mundo, aprovechando datos visuales para replicar entornos del mundo real. Dentro de este contexto, la generación de video egocéntrico, que se centra en la perspectiva humana, tiene un gran potencial para mejorar aplicaciones en realidad virtual, realidad aumentada y juegos. Sin embargo, la generación de videos egocéntricos presenta desafíos sustanciales debido a la naturaleza dinámica de los puntos de vista egocéntricos, la compleja diversidad de acciones y la variedad de escenas encontradas. Los conjuntos de datos existentes son inadecuados para abordar estos desafíos de manera efectiva. Para cerrar esta brecha, presentamos EgoVid-5M, el primer conjunto de datos de alta calidad específicamente seleccionado para la generación de video egocéntrico. EgoVid-5M abarca 5 millones de clips de video egocéntricos y está enriquecido con anotaciones detalladas de acciones, que incluyen un control cinemático detallado y descripciones textuales de alto nivel. Para garantizar la integridad y la usabilidad del conjunto de datos, implementamos un sofisticado proceso de limpieza de datos diseñado para mantener la consistencia de los fotogramas, la coherencia de las acciones y la suavidad del movimiento en condiciones egocéntricas. Además, presentamos EgoDreamer, que es capaz de generar videos egocéntricos impulsados simultáneamente por descripciones de acciones y señales de control cinemático. El conjunto de datos EgoVid-5M, las anotaciones de acciones asociadas y todos los metadatos de limpieza de datos se publicarán para el avance de la investigación en generación de video egocéntrico.
La alineación de grandes modelos de lenguaje (LLMs) con las preferencias humanas sigue siendo un desafío clave. Si bien técnicas posteriores al entrenamiento como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y la Optimización Directa de Preferencias (DPO) han logrado un éxito notable, a menudo introducen ineficiencias computacionales e inestabilidad en el entrenamiento. En este artículo, proponemos la Optimización de Preferencias a Nivel de Características (FPO, por sus siglas en inglés), un método novedoso diseñado para simplificar el proceso de alineación asegurando la estabilidad. FPO aprovecha Autoencoders Dispersos (SAEs) pre-entrenados e introduce restricciones a nivel de características, lo que permite una alineación eficiente y forzada por la dispersión. Nuestro enfoque logra eficiencia al utilizar características dispersas activadas en un autoencoder disperso bien entrenado y la calidad de la divergencia KL secuencial al utilizar la referencia offline a nivel de características. Los resultados experimentales en conjuntos de datos de referencia demuestran que FPO logra una mejora absoluta del 5.08% en la tasa de victorias con un costo computacional mucho menor en comparación con los baselines de vanguardia, lo que lo convierte en una solución prometedora para alineaciones eficientes y controlables de LLMs.
Los modelos de lenguaje en francés, como CamemBERT, han sido ampliamente adoptados en diversas industrias para tareas de procesamiento del lenguaje natural (NLP), con modelos como CamemBERT alcanzando más de 4 millones de descargas al mes. Sin embargo, estos modelos enfrentan desafíos debido a la deriva temporal de conceptos, donde los datos de entrenamiento desactualizados conducen a una disminución en el rendimiento, especialmente al encontrarse con temas y terminología nuevos. Este problema enfatiza la necesidad de modelos actualizados que reflejen las tendencias lingüísticas actuales. En este artículo, presentamos dos nuevas versiones del modelo base CamemBERT -CamemBERTav2 y CamemBERTv2- diseñadas para abordar estos desafíos. CamemBERTav2 se basa en la arquitectura DeBERTaV3 y utiliza el objetivo de Detección de Token Reemplazado (RTD) para una mejor comprensión contextual, mientras que CamemBERTv2 se construye sobre RoBERTa, que utiliza el objetivo de Modelado de Lenguaje Enmascarado (MLM). Ambos modelos se entrenan en un conjunto de datos significativamente más grande y reciente, con una longitud de contexto más extensa y un tokenizador actualizado que mejora el rendimiento de tokenización para el francés. Evaluamos el rendimiento de estos modelos tanto en tareas de NLP de dominio general como en aplicaciones específicas de dominio, como tareas en el campo médico, demostrando su versatilidad y efectividad en una variedad de casos de uso. Nuestros resultados muestran que estos modelos actualizados superan ampliamente a sus predecesores, convirtiéndolos en herramientas valiosas para los sistemas modernos de NLP. Todos nuestros nuevos modelos, así como los puntos de control intermedios, están disponibles públicamente en Huggingface.
Los vectores de dirección son un enfoque prometedor para controlar el comportamiento de los modelos de lenguaje grandes. Sin embargo, sus mecanismos subyacentes siguen siendo poco comprendidos. Aunque los autoencoders dispersos (SAEs, por sus siglas en inglés) pueden ofrecer un método potencial para interpretar los vectores de dirección, hallazgos recientes muestran que los vectores reconstruidos por SAE a menudo carecen de las propiedades de dirección de los vectores originales. Este artículo investiga por qué la aplicación directa de SAE a los vectores de dirección produce descomposiciones engañosas, identificando dos razones: (1) los vectores de dirección se encuentran fuera de la distribución de entrada para la cual están diseñados los SAE, y (2) los vectores de dirección pueden tener proyecciones negativas significativas en direcciones de características, para las cuales los SAE no están diseñados para acomodar. Estas limitaciones obstaculizan el uso directo de los SAE para interpretar los vectores de dirección.
La generación de música ha progresado significativamente, especialmente en el ámbito de la generación de audio. Sin embargo, generar música simbólica que sea a la vez de larga estructura y expresiva sigue siendo un desafío importante. En este artículo, proponemos PerceiverS (Segmentación y Escala), una arquitectura novedosa diseñada para abordar este problema aprovechando tanto la Segmentación Efectiva como los mecanismos de atención Multi-Escala. Nuestro enfoque mejora la generación de música simbólica al aprender simultáneamente dependencias estructurales a largo plazo y detalles expresivos a corto plazo. Al combinar la atención cruzada y la auto-atención en un entorno Multi-Escala, PerceiverS captura la estructura musical a larga distancia mientras preserva matices de interpretación. El modelo propuesto, evaluado en conjuntos de datos como Maestro, demuestra mejoras en la generación de música coherente y diversa con consistencia estructural y variación expresiva. Las demostraciones del proyecto y las muestras de música generada se pueden acceder a través del enlace: https://perceivers.github.io.
Los modelos existentes de texto a video (T2V) a menudo tienen dificultades para generar videos con acciones suficientemente pronunciadas o complejas. Una limitación clave radica en la incapacidad de la indicación de texto para transmitir con precisión detalles de movimiento intrincados. Para abordar esto, proponemos un marco novedoso, MVideo, diseñado para producir videos de larga duración con acciones precisas y fluidas. MVideo supera las limitaciones de las indicaciones de texto al incorporar secuencias de máscaras como una entrada adicional de condición de movimiento, proporcionando una representación más clara y precisa de las acciones previstas. Aprovechando modelos de visión fundamentales como GroundingDINO y SAM2, MVideo genera automáticamente secuencias de máscaras, mejorando tanto la eficiencia como la robustez. Nuestros resultados demuestran que, después del entrenamiento, MVideo alinea efectivamente las indicaciones de texto con las condiciones de movimiento para producir videos que cumplen simultáneamente ambos criterios. Este mecanismo de control dual permite una generación de video más dinámica al permitir alteraciones tanto en la indicación de texto como en la condición de movimiento de forma independiente, o ambas en conjunto. Además, MVideo admite la edición y composición de condiciones de movimiento, facilitando la generación de videos con acciones más complejas. Por lo tanto, MVideo avanza en la generación de movimiento T2V, estableciendo un sólido punto de referencia para una mejor representación de acciones en los modelos actuales de difusión de video. Nuestra página del proyecto está disponible en https://mvideo-v1.github.io/.