Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de razonamiento (LRMs, por sus siglas en inglés) como OpenAI-o1 y DeepSeek-R1 han demostrado capacidades notables en tareas de razonamiento complejo mediante el uso de largas cadenas de pensamiento (Chain-of-thought, CoT). Sin embargo, estos modelos a menudo sufren de alucinaciones e ineficiencias debido a su dependencia exclusiva de procesos de razonamiento internos. En este artículo, presentamos START (Self-Taught Reasoner with Tools), un novedoso modelo de lenguaje de razonamiento CoT largo integrado con herramientas que mejora significativamente las capacidades de razonamiento al aprovechar herramientas externas. A través de la ejecución de código, START es capaz de realizar cálculos complejos, auto-verificarse, explorar diversos métodos y auto-depurarse, abordando así las limitaciones de los LRMs. La innovación central de START radica en su marco de autoaprendizaje, que comprende dos técnicas clave: 1) Hint-infer: Demostramos que insertar pistas diseñadas artificialmente (por ejemplo, "Espera, tal vez usar Python aquí sea una buena idea") durante el proceso de inferencia de un LRM estimula efectivamente su capacidad para utilizar herramientas externas sin necesidad de datos de demostración. Hint-infer también puede servir como un método simple y efectivo de escalado secuencial en tiempo de prueba; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer y RFT al puntuar, filtrar y modificar las trayectorias de razonamiento con invocación de herramientas generadas por un LRM mediante Hint-infer, seguido de un ajuste fino del LRM. A través de este marco, hemos ajustado el modelo QwQ-32B para lograr START. En preguntas de ciencias de nivel de doctorado (GPQA), benchmarks de matemáticas de nivel de competencia (AMC23, AIME24, AIME25) y el benchmark de código de nivel de competencia (LiveCodeBench), START alcanza tasas de precisión del 63.6%, 95.0%, 66.7%, 47.1% y 47.3%, respectivamente. Supera significativamente al modelo base QwQ-32B y logra un rendimiento comparable al modelo de peso abierto de última generación R1-Distill-Qwen-32B y al modelo propietario o1-Preview.
Los recientes avances en los modelos de lenguaje multimodal basados en video (Video-LLMs) han mejorado significativamente la comprensión de videos al procesarlos como secuencias de fotogramas de imagen. Sin embargo, muchos métodos existentes tratan los fotogramas de manera independiente en el núcleo de visión, careciendo de un modelado temporal explícito, lo que limita su capacidad para capturar patrones dinámicos y manejar eficientemente videos largos. Para abordar estas limitaciones, presentamos STORM (Reducción Espaciotemporal de Tokens para LLMs Multimodales), una arquitectura novedosa que incorpora un codificador temporal dedicado entre el codificador de imágenes y el LLM. Nuestro codificador temporal aprovecha el Modelo de Espacio de Estados Mamba para integrar información temporal en los tokens de imagen, generando representaciones enriquecidas que preservan la dinámica inter-fotograma a lo largo de toda la secuencia de video. Esta codificación enriquecida no solo mejora las capacidades de razonamiento de video, sino que también permite estrategias efectivas de reducción de tokens, incluyendo muestreo en tiempo de prueba y agrupación temporal y espacial basada en entrenamiento, reduciendo sustancialmente las demandas computacionales en el LLM sin sacrificar información temporal clave. Al integrar estas técnicas, nuestro enfoque reduce simultáneamente la latencia de entrenamiento e inferencia mientras mejora el rendimiento, permitiendo una comprensión de video eficiente y robusta en contextos temporales extendidos. Evaluaciones exhaustivas muestran que STORM logra resultados de vanguardia en varios puntos de referencia de comprensión de videos largos (más del 5% de mejora en MLVU y LongVideoBench) mientras reduce los costos de computación hasta 8 veces y la latencia de decodificación entre 2.4 y 2.9 veces para un número fijo de fotogramas de entrada. La página del proyecto está disponible en https://research.nvidia.com/labs/lpr/storm.
Los avances recientes en los sistemas de diálogo de voz a voz aprovechan los LLM para interacciones multimodales, pero siguen limitados por los requisitos de ajuste fino, el alto costo computacional y la desalineación entre texto y voz. Los LLM habilitados para voz existentes suelen degradar la calidad conversacional al modificar el LLM, comprometiendo así sus capacidades lingüísticas. En contraste, proponemos LLMVoX, un sistema ligero de TTS autoregresivo en streaming de 30M parámetros, independiente del LLM, que genera voz de alta calidad con baja latencia, preservando completamente las capacidades del LLM base. Nuestro enfoque logra una tasa de error de palabras significativamente menor en comparación con los LLM habilitados para voz, operando con una latencia y puntuación UTMOS comparables. Al desacoplar la síntesis de voz del procesamiento del LLM mediante un sistema de streaming de tokens con múltiples colas, LLMVoX permite diálogos fluidos y de longitud infinita. Su diseño plug-and-play también facilita la extensión a diversas tareas con diferentes arquitecturas base. Además, LLMVoX se generaliza a nuevos idiomas con solo adaptación del conjunto de datos, alcanzando una baja tasa de error de caracteres en una tarea de voz en árabe. Adicionalmente, hemos integrado LLMVoX con un Modelo de Lenguaje-Visión para crear un modelo omni con capacidades de voz, texto y visión, sin requerir entrenamiento multimodal adicional. Nuestro código base y página del proyecto están disponibles en https://mbzuai-oryx.github.io/LLMVoX.
Presentamos EgoLife, un proyecto para desarrollar un asistente vital egocéntrico que acompaña y mejora la eficiencia personal a través de gafas inteligentes potenciadas por IA. Para sentar las bases de este asistente, realizamos un estudio exhaustivo de recopilación de datos en el que seis participantes convivieron durante una semana, registrando continuamente sus actividades diarias —incluyendo discusiones, compras, cocina, socialización y entretenimiento— utilizando gafas IA para la captura multimodal de video egocéntrico, junto con referencias de video sincronizadas en tercera persona. Este esfuerzo resultó en el Conjunto de Datos EgoLife, un extenso conjunto de datos de 300 horas de vida diaria egocéntrica, interpersonal, multivista y multimodal con anotaciones intensivas. Aprovechando este conjunto de datos, presentamos EgoLifeQA, una serie de tareas de respuesta a preguntas de largo contexto orientadas a la vida, diseñadas para brindar asistencia significativa en la vida cotidiana al abordar preguntas prácticas como recordar eventos relevantes pasados, monitorear hábitos de salud y ofrecer recomendaciones personalizadas. Para abordar los desafíos técnicos clave de (1) desarrollar modelos visual-auditivos robustos para datos egocéntricos, (2) habilitar el reconocimiento de identidad y (3) facilitar la respuesta a preguntas de largo contexto sobre información temporal extensa, introducimos EgoButler, un sistema integrado que comprende EgoGPT y EgoRAG. EgoGPT es un modelo omni-modal entrenado en conjuntos de datos egocéntricos, logrando un rendimiento de vanguardia en la comprensión de video egocéntrico. EgoRAG es un componente basado en recuperación que respalda la respuesta a preguntas de contexto ultra largo. Nuestros estudios experimentales verifican sus mecanismos de funcionamiento y revelan factores críticos y cuellos de botella, guiando futuras mejoras. Al liberar nuestros conjuntos de datos, modelos y puntos de referencia, buscamos estimular más investigaciones en asistentes IA egocéntricos.
A medida que los modelos de lenguaje de gran escala son cada vez más responsables del contenido en línea, surgen preocupaciones sobre el impacto de procesar repetidamente sus propias salidas. Inspirado por el efecto del "teléfono descompuesto" en la comunicación humana encadenada, este estudio investiga si los LLM distorsionan de manera similar la información a través de la generación iterativa. Mediante experimentos basados en traducción, encontramos que la distorsión se acumula con el tiempo, influenciada por la elección del idioma y la complejidad de la cadena. Si bien la degradación es inevitable, puede mitigarse mediante técnicas estratégicas de prompting. Estos hallazgos contribuyen a las discusiones sobre los efectos a largo plazo de la propagación de información mediada por IA, planteando preguntas importantes sobre la confiabilidad del contenido generado por LLM en flujos de trabajo iterativos.
La evaluación efectiva de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) es susceptible de sobreestimación debido a la exposición de datos en los benchmarks de evaluación. Introducimos un marco para generar problemas de razonamiento lingüístico que reduce el efecto de la memorización en las estimaciones del rendimiento del modelo, y aplicamos este marco para desarrollar LINGOLY-TOO, un benchmark de evaluación desafiante para el razonamiento lingüístico. Mediante el desarrollo de plantillas ortográficas, ofuscamos dinámicamente los sistemas de escritura de lenguas reales para generar numerosas variaciones de preguntas. Estas variaciones preservan los pasos de razonamiento requeridos para cada solución mientras reducen la probabilidad de que instancias específicas de problemas aparezcan en los datos de entrenamiento del modelo. Nuestros experimentos demuestran que los modelos de vanguardia, incluyendo OpenAI o1-preview y DeepSeem R1, tienen dificultades con el razonamiento avanzado. Nuestro análisis también muestra que los LLMs exhiben una variabilidad notable en la precisión entre permutaciones del mismo problema, y en promedio obtienen mejores resultados en preguntas que aparecen en su ortografía original. Nuestros hallazgos resaltan la naturaleza opaca de la generación de respuestas en los LLMs y proporcionan evidencia de que la exposición previa a datos contribuye a sobreestimar las capacidades de razonamiento de los modelos de vanguardia.
Comprender y razonar sobre sonidos no verbales y música es crucial tanto para los humanos como para los agentes de IA para interactuar de manera efectiva con sus entornos. En este artículo, presentamos Audio Flamingo 2 (AF2), un Modelo de Audio-Lenguaje (ALM) con capacidades avanzadas de comprensión y razonamiento de audio. AF2 aprovecha (i) un modelo CLAP personalizado, (ii) datos sintéticos de Preguntas y Respuestas de Audio para un razonamiento de audio detallado, y (iii) una estrategia de aprendizaje curricular en múltiples etapas. AF2 logra un rendimiento de vanguardia con un modelo de lenguaje pequeño de solo 3B parámetros, superando a modelos grandes de código abierto y propietarios en más de 20 benchmarks. A continuación, por primera vez, extendemos la comprensión de audio a segmentos largos de audio (de 30 segundos a 5 minutos) y proponemos LongAudio, un conjunto de datos grande y novedoso para entrenar ALMs en tareas de subtitulación y preguntas y respuestas de audio largo. El ajuste fino de AF2 en LongAudio conduce a un rendimiento excepcional en nuestro LongAudioBench propuesto, un benchmark anotado por expertos para evaluar las capacidades de comprensión de audio largo en ALMs. Realizamos extensos estudios de ablación para confirmar la eficacia de nuestro enfoque. Sitio web del proyecto: https://research.nvidia.com/labs/adlr/AF2/.
Establecemos rigurosamente una ley de escalado de información mutua bipartita en el lenguaje natural que gobierna las dependencias de largo alcance. Esta ley de escalado, que demostramos es distinta y escala de manera independiente a la información mutua convencional de dos puntos, es clave para comprender el modelado de lenguaje de contexto largo. Utilizando esta ley de escalado, formulamos la condición de Modelado de Lenguaje de Contexto Largo (L^2M), que relaciona la capacidad de un modelo para el modelado efectivo de contextos largos con el escalado del tamaño de su estado latente para almacenar información pasada. Nuestros resultados se validan mediante experimentos tanto en transformadores como en modelos de espacio de estados. Este trabajo establece una base teórica que guía el desarrollo de modelos de lenguaje grandes hacia longitudes de contexto más extensas.
Presentamos IFIR, el primer punto de referencia integral diseñado para evaluar la recuperación de información basada en instrucciones (IR, por sus siglas en inglés) en dominios expertos. IFIR incluye 2,426 ejemplos de alta calidad y abarca ocho subconjuntos en cuatro dominios especializados: finanzas, derecho, atención médica y literatura científica. Cada subconjunto aborda una o más tareas de recuperación específicas del dominio, replicando escenarios del mundo real donde las instrucciones personalizadas son cruciales. IFIR permite un análisis detallado de las capacidades de recuperación basadas en instrucciones al incorporar instrucciones con diferentes niveles de complejidad. También proponemos un nuevo método de evaluación basado en modelos de lenguaje grandes (LLM) para proporcionar una evaluación más precisa y confiable del rendimiento de los modelos al seguir instrucciones. A través de experimentos exhaustivos en 15 modelos de recuperación de vanguardia, incluidos aquellos basados en LLM, nuestros resultados revelan que los modelos actuales enfrentan desafíos significativos para seguir de manera efectiva instrucciones complejas y específicas del dominio. Además, ofrecemos análisis en profundidad para resaltar estas limitaciones, proporcionando ideas valiosas para guiar futuros avances en el desarrollo de sistemas de recuperación.
Los Transformers se han convertido en la arquitectura de facto para una amplia gama de tareas de aprendizaje automático, particularmente en los modelos de lenguaje extenso (LLMs, por sus siglas en inglés). A pesar de su notable rendimiento, persisten desafíos en el entrenamiento de redes Transformer profundas, especialmente en lo que respecta a la ubicación de la normalización por capas. Si bien las estructuras Pre-Norm facilitan un entrenamiento más sencillo debido a su ruta de identidad más prominente, a menudo ofrecen un rendimiento subóptimo en comparación con Post-Norm. En este artículo, proponemos HybridNorm, una estrategia de normalización híbrida sencilla pero efectiva que integra las ventajas de los enfoques Pre-Norm y Post-Norm. Específicamente, HybridNorm emplea la normalización QKV dentro del mecanismo de atención y Post-Norm en la red de alimentación directa (FFN) de cada bloque Transformer. Este diseño no solo estabiliza el entrenamiento, sino que también mejora el rendimiento, particularmente en el contexto de los LLMs. Experimentos exhaustivos en arquitecturas densas y dispersas muestran que HybridNorm supera consistentemente tanto a los enfoques Pre-Norm como Post-Norm, logrando resultados de vanguardia en varios benchmarks. Estos hallazgos resaltan el potencial de HybridNorm como una técnica más estable y efectiva para mejorar el entrenamiento y el rendimiento de los modelos Transformer profundos. %El código estará disponible públicamente. El código está disponible en https://github.com/BryceZhuo/HybridNorm.
Presentamos FuseChat-3.0, un conjunto de modelos de lenguaje de gran escala (LLMs) desarrollado mediante la integración de las fortalezas de LLMs fuente heterogéneos en LLMs objetivo más compactos. Nuestros modelos fuente incluyen el potente Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct y Llama-3.1-70B-Instruct. Para los modelos objetivo, nos centramos en tres variantes más pequeñas ampliamente utilizadas: Llama-3.1-8B-Instruct, Gemma-2-9B-it y Qwen-2.5-7B-Instruct, junto con dos opciones ultracompactas, Llama-3.2-3B-Instruct y Llama-3.2-1B-Instruct. Para aprovechar las diversas capacidades de estos modelos fuente, desarrollamos un protocolo especializado de construcción de datos adaptado a diversas tareas y dominios. El pipeline de entrenamiento de FuseChat-3.0 consta de dos etapas clave: (1) ajuste fino supervisado (SFT) para alinear las distribuciones de los modelos objetivo y fuente, y (2) Optimización Directa de Preferencias (DPO) para aplicar preferencias de múltiples LLMs fuente en el ajuste fino del modelo objetivo. Los modelos resultantes de FuseChat-3.0 muestran mejoras significativas en tareas como seguimiento de instrucciones, conocimiento general, matemáticas y programación. Como se ilustra en la Figura 1, utilizando Llama-3.1-8B-Instruct como modelo objetivo, nuestro enfoque de fusión logra una mejora promedio de 6.8 puntos en 14 benchmarks. Además, demuestra ganancias notables de 37.1 puntos y 30.1 puntos en los benchmarks de seguimiento de instrucciones AlpacaEval-2 y Arena-Hard, respectivamente. Nuestro código, modelos y conjuntos de datos están disponibles en https://github.com/SLIT-AI/FuseChat-3.0.
Presentamos Pok\'eChamp, un agente minimax impulsado por Modelos de Lenguaje de Gran Escala (LLMs) para batallas de Pok\'emon. Construido sobre un marco general para juegos competitivos de dos jugadores, Pok\'eChamp aprovecha las capacidades generalistas de los LLMs para mejorar la búsqueda en árbol minimax. Específicamente, los LLMs reemplazan tres módulos clave: (1) muestreo de acciones del jugador, (2) modelado del oponente, y (3) estimación de la función de valor, permitiendo que el agente utilice efectivamente el historial de juego y el conocimiento humano para reducir el espacio de búsqueda y abordar la observabilidad parcial. Cabe destacar que nuestro marco no requiere entrenamiento adicional de los LLMs. Evaluamos Pok\'eChamp en el popular formato Gen 9 OU. Cuando es impulsado por GPT-4o, alcanza una tasa de victorias del 76% contra el mejor bot basado en LLMs existente y del 84% contra el bot basado en reglas más fuerte, demostrando su rendimiento superior. Incluso con un modelo Llama 3.1 de 8 mil millones de parámetros de código abierto, Pok\'eChamp supera consistentemente al mejor bot basado en LLMs anterior, Pok\'ellmon impulsado por GPT-4o, con una tasa de victorias del 64%. Pok\'eChamp alcanza un Elo proyectado de 1300-1500 en la escalera en línea de Pok\'emon Showdown, situándolo entre el 30%-10% superior de los jugadores humanos. Además, este trabajo compila el mayor conjunto de datos de batallas de Pok\'emon de jugadores reales, con más de 3 millones de partidas, incluyendo más de 500k partidas de alto Elo. Basándonos en este conjunto de datos, establecemos una serie de puntos de referencia y rompecabezas de batalla para evaluar habilidades específicas de combate. También proporcionamos actualizaciones clave al motor de juego local. Esperamos que este trabajo fomente más investigaciones que utilicen las batallas de Pok\'emon como punto de referencia para integrar tecnologías de LLMs con algoritmos de teoría de juegos que aborden problemas generales de multiagentes. Videos, código y conjunto de datos disponibles en https://sites.google.com/view/pokechamp-llm.
Las alucinaciones en los LLMs (Modelos de Lenguaje de Gran Escala) representan una preocupación significativa para su implementación segura en aplicaciones del mundo real. Enfoques recientes han aprovechado el espacio latente de los LLMs para la detección de alucinaciones, pero sus embeddings, optimizados para coherencia lingüística en lugar de precisión factual, a menudo no logran separar claramente el contenido veraz del alucinado. Con este fin, proponemos el Vector Separador de Veracidad (TSV, por sus siglas en inglés), un vector de dirección ligero y flexible que remodela el espacio de representación del LLM durante la inferencia para mejorar la separación entre salidas veraces y alucinadas, sin alterar los parámetros del modelo. Nuestro marco de trabajo de dos etapas primero entrena el TSV en un pequeño conjunto de ejemplos etiquetados para formar grupos compactos y bien separados. Luego, amplía el conjunto de ejemplos con generaciones no etiquetadas del LLM, empleando un algoritmo basado en transporte óptimo para el pseudo-etiquetado combinado con un proceso de filtrado basado en la confianza. Experimentos extensivos demuestran que el TSV alcanza un rendimiento de vanguardia con datos etiquetados mínimos, mostrando una fuerte generalización entre conjuntos de datos y proporcionando una solución práctica para aplicaciones de LLM en el mundo real.
Los avances recientes en la generación de texto a video (T2V) han sido impulsados por dos paradigmas en competencia: los modelos de lenguaje autoregresivos y los modelos de difusión. Sin embargo, cada paradigma tiene limitaciones intrínsecas: los modelos de lenguaje luchan con la calidad visual y la acumulación de errores, mientras que los modelos de difusión carecen de comprensión semántica y modelado causal. En este trabajo, proponemos LanDiff, un marco híbrido que sinergiza las fortalezas de ambos paradigmas a través de una generación de lo general a lo detallado. Nuestra arquitectura introduce tres innovaciones clave: (1) un tokenizador semántico que comprime características visuales 3D en representaciones discretas 1D compactas mediante compresión semántica eficiente, logrando una relación de compresión de 14,000 veces; (2) un modelo de lenguaje que genera tokens semánticos con relaciones semánticas de alto nivel; (3) un modelo de difusión en flujo que refina la semántica general en videos de alta fidelidad. Los experimentos muestran que LanDiff, un modelo de 5B, alcanza una puntuación de 85.43 en el benchmark T2V de VBench, superando a los modelos de código abierto más avanzados como Hunyuan Video (13B) y otros modelos comerciales como Sora, Keling y Hailuo. Además, nuestro modelo también logra un rendimiento de vanguardia en la generación de videos largos, superando a otros modelos de código abierto en este campo. Nuestra demostración puede verse en https://landiff.github.io/.
Mixture-of-Experts (MoE) mejora el rendimiento del modelo mientras mantiene la eficiencia computacional, lo que lo hace adecuado para aplicaciones a gran escala. Sin embargo, en el paradigma actual de MoE, cada experto funciona de manera individual, careciendo así de interacciones de alta calidad entre expertos. Además, no se han extendido eficazmente a los bloques de atención, lo que limita mejoras adicionales en la eficiencia. Para abordar estos problemas, proponemos Union-of-Experts (UoE), que descompone el transformador en un grupo equivalente de expertos y luego implementa enrutamiento dinámico sobre los datos de entrada y los expertos. Nuestro enfoque avanza el diseño de MoE con tres innovaciones clave: (1) Realizamos una descomposición equivalente de expertos tanto en bloques MLP como en bloques de atención basada en la partición de matrices en paralelismo tensorial. (2) Desarrollamos dos paradigmas de enrutamiento: selección de datos por parches y selección de expertos, para aplicar el enrutamiento en diferentes niveles. (3) Diseñamos la arquitectura del modelo UoE, incluyendo Atención Multi-Cabezal Selectiva (SMHA) y Union-of-MLP-Experts (UoME). (4) Implementamos en paralelo las operaciones de enrutamiento y cálculo de UoE, y optimizamos la eficiencia basándonos en el análisis del procesamiento hardware. Los experimentos demuestran que el modelo equipado con UoE supera a Full Attention, a los MoE de última generación y a los transformadores eficientes en varias tareas de los dominios de imágenes y lenguaje natural. Los códigos fuente están disponibles en https://github.com/YujiaoYang-work/UoE.
Servir modelos de lenguaje grandes (LLMs) es costoso. Sin embargo, la cuantización de pesos post-entrenamiento puede abordar este problema al comprimir su tamaño para memoria limitada y ahorrar ancho de banda para aceleración. Dado que no todas las dimensiones de los pesos son igualmente importantes, estos métodos suelen basarse en una métrica de sensibilidad, que indica la influencia elemento por elemento de los pesos en la función de pérdida y se utiliza para preprocesar los pesos originales para una mejor cuantización. En este trabajo, realizamos un estudio empírico sobre la precisión de la métrica de sensibilidad y encontramos que las métricas existentes basadas en gradiente y Hessiano son muy imprecisas: subestiman el impacto de la cuantización en la función de pérdida en órdenes de magnitud, principalmente debido al pequeño radio de convergencia de la aproximación local de segundo orden, es decir, el término de gradiente y Hessiano en la fórmula de Taylor. Para abordar este problema, proponemos la Integral Post-cuantización (PQI), una métrica precisa para estimar la sensibilidad posterior de manera detallada. Para aprovechar esta métrica precisa, proponemos además ReQuant, un marco simple pero potente que consta principalmente de dos componentes Denso-y-Escaso desacoplados: selección de valores atípicos auto-adaptativa y desacoplamiento paso a paso de pesos significativos. Los resultados muestran que ReQuant mejora los métodos de cuantización post-entrenamiento más avanzados, con una mejora notable de 2.66 en la ganancia de perplejidad en Llama 3.2 1B con QTIP.
El escalado en tiempo de inferencia ha sido crucial para el éxito de modelos recientes como OpenAI o1 y DeepSeek R1. Sin embargo, muchas técnicas utilizadas para entrenar modelos para el escalado en tiempo de inferencia requieren que las tareas tengan respuestas que puedan verificarse, lo que limita su aplicación a dominios como matemáticas, programación y razonamiento lógico. Nos inspiramos en cómo los humanos realizan primeros intentos, solicitan retroalimentación detallada de otros y realizan mejoras basadas en dicha retroalimentación en una amplia gama de actividades de final abierto. Con este fin, recopilamos datos y entrenamos modelos dedicados de Retroalimentación y Edición que son capaces de realizar escalado en tiempo de inferencia para tareas generales de final abierto. En nuestra configuración, un modelo genera una respuesta inicial, que recibe retroalimentación de un segundo modelo, la cual es utilizada por un tercer modelo para editar la respuesta. Demostramos que el rendimiento en Arena Hard, un punto de referencia altamente predictivo del Elo de Chatbot Arena, puede mejorarse escalando el número de borradores de respuestas iniciales, retroalimentación efectiva y respuestas editadas. Cuando se escala de manera óptima, nuestra configuración basada en modelos de 70B de la familia Llama 3 puede alcanzar un rendimiento de vanguardia en Arena Hard con 92.7 al 5 de marzo de 2025, superando a OpenAI o1-preview-2024-09-12 con 90.4 y a DeepSeek R1 con 92.3.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en la traducción automática, demostrando un rendimiento impresionante en diversos idiomas. Sin embargo, el "translationese", caracterizado por traducciones excesivamente literales y poco naturales, sigue siendo un desafío persistente en los sistemas de traducción basados en LLMs. A pesar de su preentrenamiento en vastos corpus de expresiones naturales, los LLMs presentan errores de translationese y generan traducciones inesperadamente poco naturales, derivados de sesgos introducidos durante el ajuste fino supervisado (SFT). En este trabajo, evaluamos sistemáticamente la prevalencia del translationese en las traducciones generadas por LLMs e investigamos sus raíces durante el entrenamiento supervisado. Introducimos métodos para mitigar estos sesgos, incluyendo el pulido de referencias doradas y la filtración de instancias de entrenamiento poco naturales. Las evaluaciones empíricas demuestran que estos enfoques reducen significativamente el translationese mientras mejoran la naturalidad de las traducciones, validado tanto por evaluaciones humanas como por métricas automáticas. Nuestros hallazgos resaltan la necesidad de ajustes conscientes del entrenamiento para optimizar las salidas de traducción de los LLMs, allanando el camino para traducciones más fluidas y consistentes con el idioma objetivo. Publicamos los datos y el código en https://github.com/yafuly/LLM_Translationese.
Resolver problemas inversos bayesianos de manera eficiente sigue siendo un desafío significativo debido a la complejidad de las distribuciones posteriores y al costo computacional de los métodos tradicionales de muestreo. Dada una serie de observaciones y el modelo directo, buscamos recuperar la distribución de los parámetros, condicionada a los datos experimentales observados. Demostramos que, al combinar Conditional Flow Matching (CFM) con una arquitectura basada en transformadores, podemos muestrear eficientemente este tipo de distribución, condicionada a un número variable de observaciones.
Si bien la transferencia interlingüística es crucial para las capacidades multilingües de los modelos de lenguaje contemporáneos, no se comprende bien cómo ocurre. En este artículo, nos preguntamos qué le sucede a un modelo de lenguaje monolingüe cuando comienza a ser entrenado en un segundo idioma. Específicamente, entrenamos modelos bilingües pequeños para los cuales controlamos la cantidad de datos para cada idioma y el orden de exposición a los idiomas. Para encontrar evidencia de representaciones multilingües compartidas, recurrimos al priming estructural, un método utilizado para estudiar representaciones gramaticales en humanos. Primero replicamos resultados previos de priming estructural interlingüístico y encontramos que, después de controlar la cantidad de datos de entrenamiento y la exposición al idioma, existen efectos asimétricos entre pares de idiomas y direcciones. Argumentamos que esta asimetría podría dar forma a hipótesis sobre los efectos de priming estructural en humanos. También encontramos que los efectos de priming estructural son menos robustos para pares de idiomas menos similares, destacando las posibles limitaciones del aprendizaje por transferencia interlingüística y las representaciones compartidas para idiomas tipológicamente diversos.
Los proyectos de software prosperan gracias a la participación y contribuciones de personas de diversos orígenes. Sin embargo, el lenguaje tóxico y las interacciones negativas pueden obstaculizar la participación y retención de colaboradores, además de alienar a los recién llegados. Las estrategias de moderación proactiva buscan prevenir la toxicidad abordando conversaciones que se han desviado de su propósito original. Este estudio tiene como objetivo comprender y predecir el desvío conversacional que conduce a la toxicidad en GitHub. Para facilitar esta investigación, hemos creado un nuevo conjunto de datos que incluye 202 conversaciones tóxicas de GitHub con puntos de desvío anotados, junto con 696 conversaciones no tóxicas como referencia. Basándonos en este conjunto de datos, identificamos características únicas de las conversaciones tóxicas y los puntos de desvío, incluyendo marcadores lingüísticos como pronombres en segunda persona, términos de negación y tonos de Frustración Amarga e Impaciencia, así como patrones en la dinámica conversacional entre colaboradores del proyecto y participantes externos. Aprovechando estas observaciones empíricas, proponemos un enfoque de moderación proactiva para detectar y abordar automáticamente conversaciones potencialmente dañinas antes de que escalen. Utilizando modelos de lenguaje modernos (LLMs), desarrollamos una técnica de resumen de trayectoria conversacional que captura la evolución de las discusiones e identifica señales tempranas de desvío. Nuestros experimentos demuestran que los prompts de LLMs diseñados para proporcionar resúmenes de conversaciones en GitHub alcanzan un F1-Score del 69% en la predicción del desvío conversacional, superando significativamente un conjunto de enfoques de referencia.