Artículos de investigación en IA seleccionados diariamente con traducciones
Este estudio investiga la viabilidad de automatizar la codificación clínica en ruso, un idioma con recursos biomédicos limitados. Presentamos un nuevo conjunto de datos para la codificación CIE, que incluye campos de diagnóstico de registros electrónicos de salud (EHR) anotados con más de 10,000 entidades y más de 1,500 códigos CIE únicos. Este conjunto de datos sirve como punto de referencia para varios modelos de vanguardia, incluyendo BERT, LLaMA con LoRA y RAG, con experimentos adicionales que examinan la transferencia de aprendizaje entre dominios (desde resúmenes de PubMed hasta diagnósticos médicos) y terminologías (desde conceptos UMLS hasta códigos CIE). Luego, aplicamos el modelo de mejor rendimiento para etiquetar un conjunto de datos interno de EHR que contiene historiales de pacientes desde 2017 hasta 2021. Nuestros experimentos, realizados en un conjunto de prueba cuidadosamente curado, demuestran que el entrenamiento con los códigos predichos automáticamente conduce a una mejora significativa en la precisión en comparación con los datos anotados manualmente por médicos. Creemos que nuestros hallazgos ofrecen información valiosa sobre el potencial para automatizar la codificación clínica en idiomas con recursos limitados como el ruso, lo que podría mejorar la eficiencia clínica y la precisión de los datos en estos contextos.
Los recientes avances en la alineación de preferencias humanas han mejorado significativamente la generación y comprensión multimodal. Un enfoque clave es entrenar modelos de recompensa para guiar la optimización de preferencias. Sin embargo, los modelos existentes suelen ser específicos para tareas, lo que limita su adaptabilidad en diversas aplicaciones visuales. También argumentamos que aprender conjuntamente a evaluar múltiples tareas puede fomentar un efecto sinérgico, donde una mejor comprensión de imágenes mejora la evaluación de la generación de imágenes, y una evaluación refinada de imágenes beneficia la evaluación de videos a través de un mejor análisis de fotogramas. Con este fin, este artículo propone UnifiedReward, el primer modelo de recompensa unificado para la comprensión multimodal y la evaluación de generación, que permite tanto el ranking por pares como la puntuación puntual, y que puede emplearse para la alineación de preferencias en modelos de visión. Específicamente, (1) primero desarrollamos UnifiedReward en nuestro conjunto de datos a gran escala de preferencias humanas, que incluye tareas de generación y comprensión tanto de imágenes como de videos. (2) Luego, se utiliza para construir automáticamente datos de pares de preferencias de alta calidad basados en los modelos de visión, filtrando gradualmente sus salidas mediante ranking por pares y selección puntual. (3) Finalmente, estos datos se utilizan para la alineación de preferencias a través de la Optimización Directa de Preferencias (DPO). Los resultados experimentales demuestran que el aprendizaje conjunto para evaluar diversas tareas visuales puede generar beneficios mutuos sustanciales, y aplicamos nuestra metodología tanto a tareas de comprensión/generación de imágenes como de videos, mejorando significativamente el rendimiento en cada dominio.
Las representaciones vectoriales multilingües de propósito general, utilizadas en recuperación, regresión y clasificación, tradicionalmente se obtienen de modelos codificadores bidireccionales. A pesar de su amplia aplicabilidad, los codificadores han sido recientemente eclipsados por los avances en modelos generativos basados únicamente en decodificadores. Sin embargo, muchas de las innovaciones que impulsan este progreso no están intrínsecamente ligadas a los decodificadores. En este artículo, revisitamos el desarrollo de codificadores multilingües a través del lente de estos avances e introducimos EuroBERT, una familia de codificadores multilingües que cubre lenguas europeas y globales ampliamente habladas. Nuestros modelos superan a las alternativas existentes en una amplia gama de tareas, abarcando capacidades multilingües, matemáticas y programación, y admitiendo nativamente secuencias de hasta 8.192 tokens. También examinamos las decisiones de diseño detrás de EuroBERT, ofreciendo información sobre la composición de nuestro conjunto de datos y el proceso de entrenamiento. Publicamos los modelos EuroBERT, incluyendo puntos de control intermedios del entrenamiento, junto con nuestro marco de entrenamiento.
Recientemente, DeepSeek R1 demostró cómo el aprendizaje por refuerzo con incentivos simples basados en reglas puede permitir el desarrollo autónomo de razonamiento complejo en modelos de lenguaje grandes, caracterizado por el "momento eureka", en el cual el modelo manifiesta autorreflexión y un aumento en la longitud de las respuestas durante el entrenamiento. Sin embargo, los intentos de extender este éxito al razonamiento multimodal a menudo no lograron reproducir estas características clave. En este informe, presentamos la primera replicación exitosa de estas características emergentes para el razonamiento multimodal en un modelo no-SFT de 2B. Partiendo de Qwen2-VL-2B y aplicando aprendizaje por refuerzo directamente en el conjunto de datos SAT, nuestro modelo alcanza un 59.47% de precisión en CVBench, superando al modelo base en aproximadamente ~30% y excediendo ambos ajustes SFT en ~2%. Además, compartimos nuestros intentos fallidos y reflexiones al intentar lograr un razonamiento similar a R1 utilizando RL con modelos de instrucción, con el objetivo de arrojar luz sobre los desafíos involucrados. Nuestras observaciones clave incluyen: (1) aplicar RL en modelos de instrucción a menudo resulta en trayectorias de razonamiento triviales, y (2) las recompensas ingenuas basadas en longitud son ineficaces para elicitar capacidades de razonamiento. El código del proyecto está disponible en https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
El rápido desarrollo de los modelos de lenguaje de gran escala (LLMs) ha atraído una atención significativa hacia los modelos de habla, particularmente los avances recientes en protocolos de habla2habla que admiten entrada y salida de voz. Sin embargo, los benchmarks existentes adoptan evaluadores automáticos basados en texto para evaluar la capacidad de seguimiento de instrucciones de estos modelos, careciendo de consideración por la información paralingüística tanto en la comprensión como en la generación del habla. Para abordar estos problemas, presentamos S2S-Arena, un novedoso benchmark de estilo arena para habla2habla que evalúa las capacidades de seguimiento de instrucciones con información paralingüística tanto en la entrada como en la salida de voz a través de tareas del mundo real. Diseñamos 154 muestras que fusionan síntesis de voz (TTS) y grabaciones en vivo en cuatro dominios con 21 tareas, y evaluamos manualmente modelos de habla populares existentes en un formato de estilo arena. Los resultados experimentales muestran que: (1) además del rendimiento superior de GPT-4o, el modelo de habla en cascada de ASR, LLM y TTS supera al modelo entrenado conjuntamente después de la alineación texto-voz en protocolos de habla2habla; (2) al considerar la información paralingüística, el conocimiento del modelo de habla depende principalmente del backbone LLM, y el soporte multilingüe está limitado por el módulo de habla; (3) los modelos de habla excelentes ya pueden comprender la información paralingüística en la entrada de voz, pero generar audio apropiado con información paralingüística sigue siendo un desafío.
Los recientes avances en los modelos de lenguaje de gran escala han demostrado capacidades de razonamiento notables a través del enfoque de Cadena de Pensamiento (CoT, por sus siglas en inglés), aunque a menudo a costa de una verbosidad excesiva en sus salidas intermedias, lo que incrementa la sobrecarga computacional. Presentamos Bosquejo de Pensamiento (SoT, por sus siglas en inglés), un marco de trabajo novedoso que combina paradigmas de razonamiento inspirados en la cognición con restricciones lingüísticas para minimizar el uso de tokens mientras se preserva la precisión del razonamiento. SoT está diseñado como un marco flexible que puede incorporar cualquier paradigma de razonamiento personalizado basado en la ciencia cognitiva, y lo instanciamos con tres de estos paradigmas: Encadenamiento Conceptual, Simbolismo Segmentado y Léxicos de Expertos, cada uno adaptado a diferentes tareas de razonamiento y seleccionado dinámicamente mediante un modelo de enrutamiento ligero. A través de una evaluación exhaustiva en 15 conjuntos de datos de razonamiento con múltiples idiomas y escenarios multimodales, demostramos que SoT logra reducciones de tokens del 76% con un impacto mínimo en la precisión. En ciertos dominios, como el razonamiento matemático y de múltiples pasos, incluso mejora la precisión mientras utiliza significativamente menos tokens. Nuestro código está disponible públicamente: https://www.github.com/SimonAytes/SoT.
En este trabajo, presentamos la primera aplicación de Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés) a un modelo de lenguaje grande omni-multimodal en el contexto del reconocimiento de emociones, una tarea en la que tanto las modalidades visuales como las auditivas desempeñan roles cruciales. Utilizamos RLVR para optimizar el modelo Omni, mejorando significativamente su rendimiento en tres aspectos clave: capacidad de razonamiento, precisión en el reconocimiento de emociones y capacidad de generalización. La introducción de RLVR no solo mejora el rendimiento general del modelo en datos de distribución interna, sino que también demuestra una robustez superior cuando se evalúa en conjuntos de datos de distribución externa. Más importante aún, la capacidad de razonamiento mejorada permite un análisis claro de las contribuciones de las diferentes modalidades, particularmente la información visual y auditiva, en el proceso de reconocimiento de emociones. Esto proporciona valiosos insights para la optimización de modelos de lenguaje grandes multimodales.
Un componente esencial de los modelos recurrentes de secuencias modernos es la puerta de olvido. Aunque los Transformers no tienen una forma recurrente explícita, demostramos que una puerta de olvido puede incorporarse de manera natural en los Transformers al reducir el peso de las puntuaciones de atención no normalizadas de forma dependiente de los datos. Denominamos a este mecanismo de atención "Atención con Olvido" y al modelo resultante "Transformer con Olvido" (FoX). Mostramos que FoX supera al Transformer en modelado de lenguaje de contexto largo, extrapolación de longitud y tareas posteriores de contexto corto, mientras que rinde al mismo nivel que el Transformer en tareas posteriores de contexto largo. Además, es compatible con el algoritmo FlashAttention y no requiere ningún tipo de incrustación posicional. Varios análisis, incluyendo la prueba de la aguja en el pajar, muestran que FoX también conserva las capacidades superiores de contexto largo del Transformer en comparación con modelos recurrentes de secuencias como Mamba-2, HGRN2 y DeltaNet. También presentamos un diseño de bloque "Pro" que incorpora algunos componentes arquitectónicos comunes en modelos recurrentes de secuencias y descubrimos que mejora significativamente el rendimiento tanto de FoX como del Transformer. Nuestro código está disponible en https://github.com/zhixuan-lin/forgetting-transformer.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) existentes han demostrado el potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento complejo de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Aunque logran un rendimiento notable en tareas desafiantes como las matemáticas y la codificación, a menudo dependen de su conocimiento interno para resolver problemas, lo cual puede ser insuficiente para preguntas sensibles al tiempo o que requieren un conocimiento intensivo, lo que lleva a imprecisiones y alucinaciones. Para abordar esto, proponemos R1-Searcher, un novedoso enfoque de RL basado en resultados de dos etapas diseñado para mejorar las capacidades de búsqueda de los LLMs. Este método permite que los LLMs invoquen de manera autónoma sistemas de búsqueda externos para acceder a conocimiento adicional durante el proceso de razonamiento. Nuestro marco se basa exclusivamente en RL, sin requerir recompensas de proceso o destilación para un inicio en frío. Nuestros experimentos demuestran que nuestro método supera significativamente a los métodos RAG anteriores, incluso en comparación con el modelo cerrado GPT-4o-mini.
El inpaint de video, que tiene como objetivo restaurar contenido de video corrompido, ha experimentado un progreso sustancial. A pesar de estos avances, los métodos existentes, ya sea propagando píxeles de regiones no enmascaradas a través de flujo óptico y priores de campo receptivo, o extendiendo temporalmente modelos de inpaint de imágenes, enfrentan desafíos al generar objetos completamente enmascarados o equilibrar los objetivos contrapuestos de preservación del contexto de fondo y generación de primer plano en un solo modelo, respectivamente. Para abordar estas limitaciones, proponemos un nuevo paradigma de doble flujo, VideoPainter, que incorpora un codificador de contexto eficiente (que comprende solo el 6% de los parámetros del backbone) para procesar videos enmascarados e inyectar señales contextuales de fondo conscientes del backbone a cualquier video DiT preentrenado, produciendo contenido semánticamente consistente de manera plug-and-play. Esta separación arquitectónica reduce significativamente la complejidad de aprendizaje del modelo mientras permite una integración matizada del contexto de fondo crucial. También introducimos una novedosa técnica de remuestreo de ID de región objetivo que permite el inpaint de video de cualquier longitud, mejorando enormemente nuestra aplicabilidad práctica. Además, establecemos una pipeline de datos escalable que aprovecha los modelos actuales de comprensión visual, contribuyendo con VPData y VPBench para facilitar el entrenamiento y evaluación de inpaint basado en segmentación, el conjunto de datos y benchmark de inpaint de video más grande hasta la fecha con más de 390K clips diversos. Utilizando el inpaint como base de la pipeline, también exploramos aplicaciones posteriores, incluida la edición de video y la generación de datos de pares de edición de video, demostrando un rendimiento competitivo y un potencial práctico significativo. Experimentos extensos demuestran el rendimiento superior de VideoPainter tanto en el inpaint de video de cualquier longitud como en la edición, a través de ocho métricas clave, incluida la calidad del video, la preservación de la región enmascarada y la coherencia textual.
Los agentes basados en LLM (Modelos de Lenguaje de Gran Escala) están volviéndose cada vez más competentes para resolver tareas basadas en la web. Con esta capacidad surge un mayor riesgo de mal uso con fines maliciosos, como publicar información errónea en un foro en línea o vender sustancias ilícitas en un sitio web. Para evaluar estos riesgos, proponemos SafeArena, el primer punto de referencia que se enfoca en el uso deliberado de agentes web con fines perjudiciales. SafeArena consta de 250 tareas seguras y 250 tareas dañinas distribuidas en cuatro sitios web. Clasificamos las tareas dañinas en cinco categorías de daño: desinformación, actividad ilegal, acoso, ciberdelincuencia y sesgo social, diseñadas para evaluar usos indebidos realistas de agentes web. Evaluamos a los principales agentes web basados en LLM, incluyendo GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B y Llama-3.2 90B, en nuestro punto de referencia. Para evaluar sistemáticamente su susceptibilidad a tareas dañinas, introducimos el marco de Evaluación de Riesgos del Agente, que categoriza el comportamiento del agente en cuatro niveles de riesgo. Descubrimos que los agentes son sorprendentemente complacientes con solicitudes maliciosas, con GPT-4o y Qwen-2 completando el 34.7% y el 27.3% de las solicitudes dañinas, respectivamente. Nuestros hallazgos resaltan la necesidad urgente de procedimientos de alineación de seguridad para agentes web. Nuestro punto de referencia está disponible aquí: https://safearena.github.io.
Presentamos TrajectoryCrafter, un enfoque novedoso para redirigir trayectorias de cámara en videos monoculares. Al separar las transformaciones de vista determinísticas de la generación de contenido estocástico, nuestro método logra un control preciso sobre las trayectorias de cámara especificadas por el usuario. Proponemos un modelo de difusión de video condicional de doble flujo que integra simultáneamente representaciones de nubes de puntos y videos fuente como condiciones, garantizando transformaciones de vista precisas y una generación coherente de contenido 4D. En lugar de utilizar escasos videos multivista, creamos un conjunto de datos de entrenamiento híbrido que combina videos monoculares a escala web con conjuntos de datos multivista estáticos, mediante nuestra innovadora estrategia de doble reproyección, lo que fomenta significativamente una generalización robusta en diversas escenas. Evaluaciones exhaustivas en videos multivista y monoculares a gran escala demuestran el rendimiento superior de nuestro método.
Los avances recientes en el aprendizaje por refuerzo (RL) para modelos de lenguaje de gran escala (LLMs), ejemplificados por DeepSeek R1, han demostrado que incluso una tarea simple de preguntas y respuestas puede mejorar sustancialmente las capacidades de razonamiento de un LLM. En este trabajo, extendemos este enfoque modificando la tarea a un entorno de múltiples intentos. En lugar de generar una única respuesta por pregunta, el modelo recibe múltiples intentos, con retroalimentación proporcionada después de respuestas incorrectas. La tarea de múltiples intentos fomenta que el modelo refine sus intentos previos y mejore la eficiencia en la búsqueda. Los resultados experimentales muestran que incluso un LLM pequeño entrenado en una tarea de múltiples intentos logra una precisión significativamente mayor cuando se evalúa con más intentos, mejorando del 45.6% con 1 intento al 52.5% con 2 intentos en el benchmark de matemáticas. En contraste, el mismo LLM entrenado en una tarea estándar de un solo turno exhibe solo una mejora marginal, aumentando del 42.3% al 43.2% cuando se le dan más intentos durante la evaluación. Los resultados indican que, en comparación con la tarea estándar de un solo turno, un LLM entrenado en una tarea de múltiples intentos logra un rendimiento ligeramente mejor en benchmarks de matemáticas, mientras también aprende a refinar sus respuestas de manera más efectiva basándose en la retroalimentación del usuario. El código completo está disponible en https://github.com/DualityRL/multi-attempt.
El desafío de reducir el tamaño de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) manteniendo su rendimiento ha ganado una atención significativa. Sin embargo, los métodos existentes, como la destilación de modelos y el aprendizaje por transferencia, a menudo no logran alcanzar una alta precisión. Para abordar esta limitación, presentamos el enfoque de destilación Branch-Merge, que mejora la compresión de modelos a través de dos fases: (1) la Fase de Ramificación, donde el conocimiento de un modelo maestro grande se destila selectivamente en modelos estudiantiles especializados mediante un ajuste fino supervisado (SFT) específico del dominio; y (2) la Fase de Fusión, donde estos modelos estudiantiles se combinan para permitir la transferencia de conocimiento entre dominios y mejorar la generalización. Validamos nuestro enfoque de destilación utilizando DeepSeek-R1 como el modelo maestro y DeepSeek-R1-Distill-Qwen-32B como el modelo estudiantil. El modelo fusionado resultante, TinyR1-32B-Preview, supera a su contraparte DeepSeek-R1-Distill-Qwen-32B en múltiples benchmarks, incluyendo Matemáticas (+5.5 puntos), Codificación (+4.4 puntos) y Ciencias (+2.9 puntos), mientras logra un rendimiento casi igual al de DeepSeek-R1 en AIME 2024. El enfoque de destilación Branch-Merge proporciona una solución escalable para crear LLMs más pequeños y de alto rendimiento con un costo y tiempo computacional reducidos.
Los embeddings de código son esenciales para la búsqueda semántica de código; sin embargo, los enfoques actuales a menudo tienen dificultades para capturar los matices sintácticos y contextuales precisos inherentes al código. Los modelos de código abierto como CodeBERT y UniXcoder presentan limitaciones en escalabilidad y eficiencia, mientras que los sistemas propietarios de alto rendimiento imponen costos computacionales sustanciales. Introducimos un método de ajuste fino eficiente en parámetros basado en Low-Rank Adaptation (LoRA) para construir adaptadores específicos de tareas para la recuperación de código. Nuestro enfoque reduce el número de parámetros entrenables a menos del dos por ciento del modelo base, permitiendo un ajuste rápido en corpus extensos de código (2 millones de muestras en 25 minutos en dos GPUs H100). Los experimentos demuestran un aumento de hasta el 9.1% en el Mean Reciprocal Rank (MRR) para búsquedas de Code2Code, y hasta el 86.69% para tareas de búsqueda de Text2Code en múltiples lenguajes de programación. La distinción en la adaptación por tarea y por lenguaje ayuda a explorar la sensibilidad de la recuperación de código ante variaciones sintácticas y lingüísticas.
Las tareas domésticas del mundo real presentan desafíos significativos para los robots de manipulación móvil. Un análisis de los benchmarks existentes en robótica revela que el desempeño exitoso de las tareas depende de tres capacidades clave de control de cuerpo completo: coordinación bimanual, navegación estable y precisa, y amplia accesibilidad del efector final. Lograr estas capacidades requiere un diseño de hardware cuidadoso, pero la complejidad resultante del sistema complica aún más el aprendizaje de políticas visuomotoras. Para abordar estos desafíos, presentamos el BEHAVIOR Robot Suite (BRS), un marco integral para la manipulación de cuerpo completo en diversas tareas domésticas. Basado en un robot bimanual con ruedas y un torso de 4 grados de libertad (DoF), BRS integra una interfaz de teleoperación de cuerpo completo de bajo costo para la recopilación de datos y un algoritmo novedoso para el aprendizaje de políticas visuomotoras de cuerpo completo. Evaluamos BRS en cinco tareas domésticas desafiantes que no solo enfatizan las tres capacidades principales, sino que también introducen complejidades adicionales, como navegación de largo alcance, interacción con objetos articulados y deformables, y manipulación en espacios confinados. Creemos que la integración de la encarnación robótica de BRS, su interfaz de recopilación de datos y su marco de aprendizaje representan un paso significativo hacia la habilitación de la manipulación de cuerpo completo en tareas domésticas cotidianas. BRS es de código abierto y está disponible en https://behavior-robot-suite.github.io/.
Los modelos de difusión han logrado avances significativos tanto en la generación de imágenes como de videos, aunque aún enfrentan altos costos computacionales. Como una solución efectiva, el emparejamiento de flujo (flow matching) busca redirigir el proceso de difusión de estos modelos hacia una línea recta, permitiendo generación en pocos pasos e incluso en un solo paso. Sin embargo, en este artículo, sugerimos que la pipeline de entrenamiento original del emparejamiento de flujo no es óptima y presentamos dos técnicas para mejorarla. En primer lugar, introducimos el reflujo progresivo, que redirige progresivamente los modelos de difusión en intervalos de tiempo locales hasta abarcar todo el proceso de difusión, reduciendo así la dificultad del emparejamiento de flujo. En segundo lugar, presentamos la predicción alineada en v, que resalta la importancia de emparejar la dirección en el emparejamiento de flujo sobre el emparejamiento de magnitud. Los resultados experimentales en SDv1.5 y SDXL demuestran la efectividad de nuestro método. Por ejemplo, al aplicarlo en SDv1.5, se logra un FID de 10.70 en el conjunto de validación de MSCOCO2014 con solo 4 pasos de muestreo, cercano al rendimiento de nuestro modelo de referencia (32 pasos DDIM, FID = 10.05).
El modelado de secuencias lineales (Linear Sequence Modeling, LSM), como la atención lineal, los modelos de espacio de estados y las RNNs lineales, junto con la Mezcla de Expertos (Mixture-of-Experts, MoE), han surgido recientemente como mejoras arquitectónicas significativas. En este artículo, presentamos Linear-MoE, un sistema de nivel de producción para modelar y entrenar modelos a gran escala que integran LSM con MoE. Linear-MoE aprovecha las ventajas tanto de los módulos LSM para el modelado de secuencias con complejidad lineal como de las capas MoE para la activación dispersa, con el objetivo de ofrecer alto rendimiento con un entrenamiento eficiente. El sistema Linear-MoE consta de: 1) Un subsistema de modelado, que proporciona un marco unificado que soporta todas las instancias de LSM, y 2) Un subsistema de entrenamiento, que facilita un entrenamiento eficiente al incorporar diversas tecnologías avanzadas de paralelismo, en particular el Paralelismo de Secuencias diseñado para modelos Linear-MoE. Además, exploramos modelos híbridos que combinan capas Linear-MoE con capas estándar Transformer-MoE y su Paralelismo de Secuencias para mejorar aún más la flexibilidad y el rendimiento del modelo. Las evaluaciones en dos series de modelos, A0.3B-2B y A1B-7B, demuestran que Linear-MoE logra ganancias de eficiencia mientras mantiene un rendimiento competitivo en varios benchmarks, mostrando su potencial como una arquitectura de modelo fundamental de próxima generación. Código: https://github.com/OpenSparseLLMs/Linear-MoE.
En este informe, presentamos el tercer reporte técnico sobre el desarrollo de modelos de pensamiento lento como parte del proyecto STILL. A medida que la ruta técnica se vuelve más clara, el escalamiento del entrenamiento de RL se ha convertido en una técnica central para implementar dichos modelos de razonamiento. Experimentamos de manera sistemática y documentamos los efectos de varios factores que influyen en el entrenamiento de RL, realizando experimentos tanto en modelos base como en modelos ajustados. Específicamente, demostramos que nuestro enfoque de entrenamiento de RL mejora consistentemente los modelos base Qwen2.5-32B, aumentando tanto la longitud de las respuestas como la precisión en las pruebas. Además, mostramos que incluso cuando un modelo como DeepSeek-R1-Distill-Qwen-1.5B ya ha alcanzado un alto nivel de rendimiento, puede refinarse aún más mediante el entrenamiento de RL, logrando una precisión del 39.33% en AIME 2024. Más allá del entrenamiento de RL, también exploramos el uso de la manipulación de herramientas, encontrando que esta mejora significativamente el rendimiento de razonamiento de los modelos grandes de razonamiento. Este enfoque alcanza una precisión notable del 86.67% con búsqueda codiciosa en AIME 2024, destacando su efectividad para mejorar las capacidades del modelo. Publicamos nuestros recursos en el sitio web del proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
La generación aumentada por recuperación (RAG, por sus siglas en inglés) ha demostrado una capacidad significativa para realizar tareas de pregunta-respuesta (QA) dentro de un corpus específico. Sin embargo, aún existen numerosos casos de fallos de RAG en QA. Estos fallos no se deben únicamente a las limitaciones de los Modelos de Lenguaje de Gran Escala (LLMs); en cambio, surgen principalmente de la recuperación de información inexacta para los LLMs debido a dos limitaciones: (1) Los métodos actuales de RAG segmentan el corpus sin considerar la semántica, lo que dificulta encontrar contexto relevante debido a la correlación deteriorada entre las preguntas y los segmentos. (2) Existe un equilibrio entre omitir contexto esencial al recuperar menos contexto y obtener contexto irrelevante al recuperar más contexto. En este artículo, presentamos un marco de RAG (SAGE) para superar estas limitaciones. Primero, para abordar el problema de segmentación sin considerar la semántica, proponemos entrenar un modelo de segmentación semántica. Este modelo se entrena para segmentar el corpus en fragmentos semánticamente completos. Segundo, para asegurar que solo se recuperen los fragmentos más relevantes mientras se ignoran los irrelevantes, diseñamos un algoritmo de selección de fragmentos que selecciona dinámicamente los fragmentos basándose en la velocidad de disminución de la puntuación de relevancia, lo que lleva a una selección más pertinente. Tercero, para garantizar aún más la precisión de los fragmentos recuperados, proponemos que los LLMs evalúen si los fragmentos recuperados son excesivos o insuficientes y luego ajusten la cantidad de contexto en consecuencia. Los experimentos muestran que SAGE supera a los métodos de referencia en un 61.25% en la calidad de QA en promedio. Además, al evitar recuperar contexto ruidoso, SAGE reduce el costo de los tokens consumidos en la inferencia de los LLMs y logra una mejora del 49.41% en la eficiencia de costos en promedio. Adicionalmente, nuestro trabajo ofrece perspectivas valiosas para mejorar RAG.
Los modelos de lenguaje avanzados de contexto largo actuales ofrecen un gran potencial para aplicaciones prácticas en ingeniería de software. Sin embargo, el progreso en este dominio crítico sigue obstaculizado por una limitación fundamental: la ausencia de un marco de evaluación riguroso para la comprensión de código largo. Para superar este obstáculo, proponemos un punto de referencia para la comprensión de código largo, LONGCODEU, que evalúa la capacidad de los modelos de lenguaje de contexto largo (LCLM) en cuatro aspectos (8 tareas) necesarios para aplicaciones prácticas, incluyendo la percepción de unidades de código, la comprensión intra-unidad de código, la comprensión de relaciones inter-unidades de código y la comprensión de documentación de código largo. Evaluamos 9 LCLM populares en LONGCODEU (es decir, 6 modelos generales y 3 modelos específicos de código). Nuestros resultados experimentales revelan limitaciones clave en las capacidades actuales de los LCLM para la comprensión de código largo. En particular, el rendimiento de los LCLM disminuye drásticamente cuando la longitud del código largo supera las 32K, quedando muy por debajo de sus ventanas de contexto declaradas de 128K-1M. Entre los cuatro aspectos, la comprensión de relaciones inter-unidades de código es la más desafiante para los LCLM. Nuestro estudio proporciona insights valiosos para optimizar los LCLM e impulsar avances en la ingeniería de software.
La naturaleza secuencial de los LLM modernos los hace costosos y lentos, y el muestreo especulativo ha demostrado ser una solución efectiva a este problema. Métodos como EAGLE realizan autorregresión a nivel de características, reutilizando características de la capa superior del modelo objetivo para obtener mejores resultados que el muestreo especulativo básico. Una tendencia creciente en la comunidad de LLM es escalar los datos de entrenamiento para mejorar la inteligencia del modelo sin aumentar los costos de inferencia. Sin embargo, observamos que escalar los datos proporciona mejoras limitadas para EAGLE. Identificamos que esta limitación surge de las restricciones de predicción de características de EAGLE. En este artículo, presentamos EAGLE-3, que abandona la predicción de características en favor de la predicción directa de tokens y reemplaza la dependencia de las características de la capa superior con la fusión de características multicapa mediante una técnica llamada prueba en tiempo de entrenamiento. Estas mejoras mejoran significativamente el rendimiento y permiten que el modelo borrador se beneficie completamente del escalado de los datos de entrenamiento. Nuestros experimentos incluyen tanto modelos de chat como modelos de razonamiento, evaluados en cinco tareas. Los resultados muestran que EAGLE-3 logra una relación de aceleración de hasta 6.5x, con una mejora de aproximadamente 1.4x sobre EAGLE-2. El código está disponible en https://github.com/SafeAILab/EAGLE.
La detección de anomalías en video (VAD, por sus siglas en inglés) es crucial para el análisis y la vigilancia de videos en visión por computadora. Sin embargo, los modelos existentes de VAD dependen de patrones normales aprendidos, lo que dificulta su aplicación en entornos diversos. Como consecuencia, los usuarios deben reentrenar los modelos o desarrollar modelos de IA separados para nuevos entornos, lo que requiere experiencia en aprendizaje automático, hardware de alto rendimiento y una extensa recopilación de datos, limitando así la usabilidad práctica de VAD. Para abordar estos desafíos, este estudio propone la técnica de detección de anomalías en video personalizable (C-VAD) y el modelo AnyAnomaly. C-VAD considera el texto definido por el usuario como un evento anormal y detecta los fotogramas que contienen un evento específico en un video. Implementamos AnyAnomaly de manera efectiva utilizando un sistema de respuesta visual a preguntas con conciencia del contexto, sin necesidad de ajustar finamente el gran modelo de lenguaje visual. Para validar la efectividad del modelo propuesto, construimos conjuntos de datos C-VAD y demostramos la superioridad de AnyAnomaly. Además, nuestro enfoque mostró un rendimiento competitivo en conjuntos de datos de referencia de VAD, logrando resultados de vanguardia en el conjunto de datos UBnormal y superando a otros métodos en generalización en todos los conjuntos de datos. Nuestro código está disponible en línea en github.com/SkiddieAhn/Paper-AnyAnomaly.
Los simuladores de usuarios son cruciales para replicar las interacciones humanas con sistemas de diálogo, apoyando tanto el entrenamiento colaborativo como la evaluación automática, especialmente para los modelos de lenguaje de gran escala (LLMs). Sin embargo, los simuladores existentes a menudo dependen únicamente de enunciados de texto, omitiendo rasgos implícitos del usuario como la personalidad, el estilo de habla y los objetivos. En contraste, los métodos basados en personajes carecen de generalización, ya que dependen de perfiles predefinidos de individuos famosos o arquetipos. Para abordar estos desafíos, proponemos el Simulador de Usuario con Perfiles Implícitos (USP), un marco que infiere perfiles implícitos de usuario a partir de conversaciones humano-máquina y los utiliza para generar diálogos más personalizados y realistas. Primero desarrollamos un extractor impulsado por LLM con un esquema de perfil completo. Luego, refinamos la simulación mediante ajuste fino supervisado condicional y aprendizaje por refuerzo con consistencia cíclica, optimizándola tanto a nivel de enunciado como de conversación. Finalmente, adoptamos un muestreador de perfiles diverso para capturar la distribución de perfiles de usuarios del mundo real. Los resultados experimentales demuestran que USP supera a las líneas base fuertes en términos de autenticidad y diversidad, al tiempo que logra un rendimiento comparable en consistencia. Además, las evaluaciones dinámicas de múltiples turnos basadas en USP se alinean fuertemente con los puntos de referencia principales, demostrando su eficacia en aplicaciones del mundo real.