Artículos de investigación en IA seleccionados diariamente con traducciones
Estudiamos modelos de lenguaje de gran escala (LLMs) con razonamiento autorrecompensado, los cuales pueden generar simultáneamente razonamientos paso a paso y evaluar la corrección de sus salidas durante el tiempo de inferencia, sin retroalimentación externa. Este enfoque integrado permite que un solo modelo guíe de manera independiente su proceso de razonamiento, ofreciendo ventajas computacionales para el despliegue de modelos. Nos enfocamos particularmente en la tarea representativa de la autocorrección, donde los modelos detectan errores en sus respuestas de forma autónoma, revisan las salidas y deciden cuándo terminar los bucles de refinamiento iterativo. Para lograr esto, proponemos un marco algorítmico de dos etapas para construir modelos de razonamiento autorrecompensado utilizando únicamente datos autogenerados. En la primera etapa, empleamos muestreo secuencial por rechazo para sintetizar trayectorias largas de cadena de pensamiento que incorporan mecanismos de autorrecompensa y autocorrección. El ajuste fino de los modelos con estos datos seleccionados les permite aprender los patrones de autorrecompensa y autocorrección. En la segunda etapa, mejoramos aún más la capacidad de los modelos para evaluar la precisión de las respuestas y refinar las salidas mediante aprendizaje por refuerzo con señales basadas en reglas. Experimentos con Llama-3 y Qwen-2.5 demuestran que nuestro enfoque supera las capacidades intrínsecas de autocorrección y logra un rendimiento comparable a sistemas que dependen de modelos de recompensa externos.
El razonamiento es una frontera crítica para avanzar en el análisis de imágenes médicas, donde la transparencia y la confiabilidad desempeñan un papel central tanto en la confianza de los clínicos como en la aprobación regulatoria. Aunque los Modelos de Lenguaje Visual Médico (VLMs) muestran promesas para tareas radiológicas, la mayoría de los VLMs existentes simplemente producen respuestas finales sin revelar el razonamiento subyacente. Para abordar esta brecha, presentamos MedVLM-R1, un VLM médico que genera explícitamente razonamientos en lenguaje natural para mejorar la transparencia y la confiabilidad. En lugar de depender del ajuste fino supervisado (SFT), que a menudo sufre de sobreajuste a las distribuciones de entrenamiento y no fomenta un razonamiento genuino, MedVLM-R1 emplea un marco de aprendizaje por refuerzo que incentiva al modelo a descubrir caminos de razonamiento interpretables por humanos sin utilizar referencias de razonamiento. A pesar de los datos de entrenamiento limitados (600 muestras de preguntas visuales) y los parámetros del modelo (2B), MedVLM-R1 aumenta la precisión del 55.11% al 78.22% en las evaluaciones de resonancia magnética (MRI), tomografía computarizada (CT) y radiografías, superando a modelos más grandes entrenados con más de un millón de muestras. También demuestra una generalización de dominio robusta en tareas fuera de la distribución. Al unificar el análisis de imágenes médicas con un razonamiento explícito, MedVLM-R1 marca un paso crucial hacia una IA confiable e interpretable en la práctica clínica.
En los modelos multimodales de gran escala (LMMs), la percepción de modalidades no lingüísticas (por ejemplo, representaciones visuales) generalmente no está a la par con las poderosas capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs), lo que limita el rendimiento de los LMMs en tareas posteriores desafiantes. Esta debilidad se ha mitigado recientemente al reemplazar el codificador visual con una mezcla de expertos (MoE), que proporciona representaciones ricas, multigranulares y diversas requeridas por diversas tareas posteriores. El rendimiento del MoE multimodal depende en gran medida de su enrutador, que reajusta y mezcla las representaciones de diferentes expertos para cada entrada. Sin embargo, encontramos que el enrutador entrenado de extremo a extremo no siempre produce los pesos de enrutamiento óptimos para cada muestra de prueba. Para cerrar esta brecha, proponemos un método novedoso y eficiente llamado "Re-Enrutamiento en Tiempo de Prueba" (R2-T2) que optimiza localmente el vector de pesos de enrutamiento en tiempo de prueba moviéndolo hacia aquellos vectores de las muestras correctamente predichas en un vecindario de la muestra de prueba. Proponemos tres estrategias de R2-T2 con diferentes objetivos de optimización y espacios de búsqueda de vecindarios. R2-T2 mejora de manera consistente y significativa el rendimiento de los LMMs de vanguardia en puntos de referencia desafiantes de diversas tareas, sin entrenar ningún parámetro del modelo base.
LongRoPE2 es un enfoque novedoso que extiende la ventana de contexto efectiva de los modelos de lenguaje preentrenados de gran escala (LLMs) hasta la longitud objetivo, preservando el rendimiento en la ventana de contexto original más corta. Esto se logra mediante tres contribuciones: (1) una hipótesis que sugiere que el entrenamiento insuficiente en dimensiones superiores de RoPE contribuye a los persistentes problemas de fuera de distribución (OOD) observados en métodos existentes; (2) un algoritmo efectivo de reescalado de RoPE que emplea búsqueda evolutiva guiada por perplejidad "impulsada por aguja" para abordar el problema de entrenamiento insuficiente; (3) un enfoque de entrenamiento con ventana de contexto mixto que ajusta los pesos del modelo para adoptar RoPE reescalado en secuencias de contexto largo, manteniendo el rendimiento en contexto corto con el RoPE original. Experimentos exhaustivos en LLaMA3-8B y Phi3-mini-3.8B en diversos benchmarks validan la hipótesis y demuestran la efectividad de LongRoPE2. Notablemente, LongRoPE2 extiende LLaMA3-8B para alcanzar una longitud de contexto efectiva de 128K, conservando más del 98.5% del rendimiento en contexto corto, utilizando solo 10B tokens — 80 veces menos que el enfoque de Meta, que no logra alcanzar la longitud de contexto efectiva objetivo. El código estará disponible en https://github.com/microsoft/LongRoPE.
Las recientes innovaciones en arquitectura, pre-entrenamiento y ajuste fino han llevado a las notables habilidades de aprendizaje y razonamiento en contexto de grandes modelos de lenguaje auto-regresivos como LLaMA y DeepSeek. En contraste, los codificadores como BERT y RoBERTa no han visto el mismo nivel de progreso a pesar de ser fundamentales para muchas aplicaciones de procesamiento del lenguaje natural (NLP) posteriores. Para cerrar esta brecha, presentamos NeoBERT, un codificador de próxima generación que redefine las capacidades de los modelos bidireccionales mediante la integración de avances de vanguardia en arquitectura, datos modernos y metodologías optimizadas de pre-entrenamiento. NeoBERT está diseñado para una adopción sin problemas: sirve como un reemplazo plug-and-play para los modelos base existentes, se basa en una relación óptima de profundidad a anchura y aprovecha una longitud de contexto extendida de 4,096 tokens. A pesar de su compacto tamaño de 250M parámetros, logra resultados de vanguardia en el extenso benchmark MTEB, superando a BERT large, RoBERTa large, NomicBERT y ModernBERT bajo condiciones idénticas de ajuste fino. Además, evaluamos rigurosamente el impacto de cada modificación en GLUE y diseñamos un marco uniforme de ajuste fino y evaluación para MTEB. Publicamos todo el código, datos, puntos de control y scripts de entrenamiento para acelerar la investigación y la adopción en el mundo real.
La disparidad en la representación entre la generación visual y la comprensión impone una brecha crítica al integrar estas capacidades en un único marco de trabajo. Para cerrar esta brecha, presentamos UniTok, un tokenizador visual discreto que codifica detalles de grano fino para la generación, al mismo tiempo que captura semántica de alto nivel para la comprensión. A pesar de que estudios recientes han demostrado que estos objetivos podrían generar conflictos de pérdida durante el entrenamiento, revelamos que el cuello de botella subyacente proviene de la capacidad representacional limitada de los tokens discretos. Abordamos esto mediante la introducción de la cuantización de múltiples libros de códigos, que divide la cuantización vectorial con varios sub-libros de códigos independientes para expandir el espacio de características latentes, evitando al mismo tiempo la inestabilidad en el entrenamiento causada por libros de códigos demasiado grandes. Nuestro método eleva significativamente el límite superior de los tokenizadores discretos unificados para igualar o incluso superar a los tokenizadores continuos específicos de dominio. Por ejemplo, UniTok logra un rFID notable de 0.38 (frente a 0.87 para SD-VAE) y una precisión zero-shot del 78.6% (frente al 76.2% para CLIP) en ImageNet. Nuestro código está disponible en https://github.com/FoundationVision/UniTok.
El campo de generación avanzada de texto a imagen está presenciando la aparición de marcos unificados que integran potentes codificadores de texto, como CLIP y T5, con estructuras de base de Transformadores de Difusión. Aunque ha habido esfuerzos para controlar las imágenes de salida con condiciones adicionales, como el mapa canny y la profundidad, todavía falta un marco integral para el control entrelazado arbitrario de texto-imagen. Esta brecha es especialmente evidente al intentar fusionar conceptos o elementos visuales de múltiples imágenes en el proceso de generación. Para mitigar la brecha, realizamos experimentos preliminares que muestran que los grandes modelos multimodales (LMMs) ofrecen un espacio de representación compartido efectivo, donde la imagen y el texto pueden estar bien alineados para servir como condición para modelos de difusión externos. Basándonos en este descubrimiento, proponemos Dream Engine, un marco eficiente y unificado diseñado para el control entrelazado arbitrario de texto-imagen en modelos de generación de imágenes. Construyendo sobre potentes modelos de texto a imagen como SD3.5, reemplazamos los codificadores originales de solo texto incorporando codificadores de información multimodal versátiles como QwenVL. Nuestro enfoque utiliza un paradigma de entrenamiento de dos etapas, que consiste en la alineación conjunta de texto-imagen y ajuste de instrucciones entrelazadas multimodales. Nuestros experimentos demuestran que este método de entrenamiento es efectivo, logrando una puntuación general de 0.69 en el banco de pruebas GenEval, y emparejando el rendimiento de modelos de texto a imagen de última generación como SD3.5 y FLUX.
Muchas tareas de razonamiento desafiantes requieren no solo respuestas rápidas e intuitivas, sino un enfoque más deliberado y de múltiples pasos. Los avances recientes en los modelos de lenguaje grandes (LLMs) destacan un cambio importante desde el enfoque de "Sistema 1" de reacciones rápidas hacia el estilo de "Sistema 2" de resolución de problemas mediante reflexión y corrección. Sin embargo, los puntos de referencia actuales dependen en gran medida de la precisión de la respuesta final, dejando sin examinar gran parte de los pasos intermedios del razonamiento del modelo. Esto no permite evaluar la capacidad del modelo para reflexionar y corregir errores dentro del proceso de razonamiento. Para cerrar esta brecha, presentamos FINEREASON, un punto de referencia de rompecabezas lógicos para la evaluación detallada de las capacidades de razonamiento de los LLMs. Cada rompecabezas puede descomponerse en pasos atómicos, lo que lo hace ideal para una validación rigurosa de la corrección intermedia. Basándonos en esto, introducimos dos tareas: verificación de estado y transición de estado, para una evaluación integral de cómo los modelos evalúan la situación actual y planifican el siguiente paso. Para apoyar una investigación más amplia, también proporcionamos un conjunto de entrenamiento de rompecabezas destinado a mejorar el rendimiento en tareas matemáticas generales. Demostramos que los modelos entrenados con nuestros datos de verificación y transición de estado muestran mejoras en el razonamiento matemático de hasta un 5.1% en GSM8K.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento excepcional en ingeniería de software, pero enfrentan desafíos para adaptarse al conocimiento de código en constante evolución, particularmente en relación con las actualizaciones frecuentes de las APIs de bibliotecas de terceros. Esta limitación, derivada de conjuntos de datos de preentrenamiento estáticos, a menudo resulta en código no ejecutable o implementaciones con seguridad y eficiencia subóptimas. Con este fin, este artículo presenta CODESYNC, un motor de datos para identificar patrones de código obsoletos y recopilar actualizaciones de conocimiento de código en tiempo real de bibliotecas de terceros en Python. Basándonos en CODESYNC, desarrollamos CODESYNCBENCH, un punto de referencia integral para evaluar la capacidad de los LLMs para mantenerse sincronizados con la evolución del código, que cubre actualizaciones del mundo real para 220 APIs de seis bibliotecas de Python. Nuestro punto de referencia ofrece 3,300 casos de prueba en tres tareas de evaluación y un conjunto de datos de ajuste de instrucciones consciente de actualizaciones que consta de 2,200 muestras de entrenamiento. Experimentos extensos en 14 LLMs de vanguardia revelan que estos luchan con la evolución dinámica del código, incluso con el apoyo de métodos avanzados de actualización de conocimiento (por ejemplo, DPO, ORPO y SimPO). Creemos que nuestro punto de referencia puede ofrecer una base sólida para el desarrollo de métodos más efectivos para la actualización de conocimiento de código en tiempo real en el futuro. El código experimental y el conjunto de datos están disponibles públicamente en: https://github.com/Lucky-voyage/Code-Sync.
A pesar de su notable rendimiento, los Transformadores de Difusión modernos se ven limitados por los considerables requisitos de recursos durante la inferencia, derivados de la cantidad fija y grande de cómputo necesaria para cada paso de eliminación de ruido. En este trabajo, revisamos el paradigma estático convencional que asigna un presupuesto de cómputo fijo por iteración de eliminación de ruido y proponemos, en su lugar, una estrategia dinámica. Nuestro marco simple y eficiente en muestras permite convertir modelos DiT preentrenados en modelos flexibles —denominados FlexiDiT—, lo que les permite procesar entradas con distintos presupuestos de cómputo. Demostramos cómo un único modelo flexible puede generar imágenes sin pérdida de calidad, reduciendo los FLOPs requeridos en más de un 40\% en comparación con sus contrapartes estáticas, tanto para la generación de imágenes condicionadas por clase como por texto. Nuestro método es general y agnóstico a las modalidades de entrada y condicionamiento. Mostramos cómo nuestro enfoque puede extenderse fácilmente para la generación de videos, donde los modelos FlexiDiT generan muestras con hasta un 75\% menos de cómputo sin comprometer el rendimiento.
Presentamos Mobius, un método novedoso para generar videos en bucle perfectamente continuos a partir de descripciones de texto directamente, sin necesidad de anotaciones por parte del usuario, creando así nuevos materiales visuales para presentaciones multimedia. Nuestro método reutiliza el modelo preentrenado de difusión latente de video para generar videos en bucle a partir de indicaciones de texto sin necesidad de entrenamiento adicional. Durante la inferencia, primero construimos un ciclo latente conectando el ruido inicial y final de los videos. Dado que la consistencia temporal puede mantenerse mediante el contexto del modelo de difusión de video, realizamos un desruido latente de múltiples fotogramas desplazando gradualmente el latente del primer fotograma hacia el final en cada paso. Como resultado, el contexto de desruido varía en cada paso mientras se mantiene la consistencia durante todo el proceso de inferencia. Además, el ciclo latente en nuestro método puede tener cualquier duración. Esto extiende nuestro enfoque de desplazamiento latente para generar videos en bucle perfectamente continuos más allá del alcance del contexto del modelo de difusión de video. A diferencia de los cinemagraphs anteriores, el método propuesto no requiere una imagen como apariencia, lo que limitaría los movimientos de los resultados generados. En cambio, nuestro método puede producir movimientos más dinámicos y una mejor calidad visual. Realizamos múltiples experimentos y comparaciones para verificar la eficacia del método propuesto, demostrando su eficacia en diferentes escenarios. Todo el código estará disponible públicamente.
El modelado autoregresivo (AR), conocido por su paradigma de predicción de siguiente token, sustenta los modelos generativos de lenguaje y visión de vanguardia. Tradicionalmente, un "token" se trata como la unidad de predicción más pequeña, a menudo un símbolo discreto en lenguaje o un parche cuantizado en visión. Sin embargo, la definición óptima de token para estructuras de imagen 2D sigue siendo una pregunta abierta. Además, los modelos AR sufren de sesgo de exposición, donde el forzamiento del profesor durante el entrenamiento conduce a la acumulación de errores en la inferencia. En este documento, proponemos xAR, un marco AR generalizado que extiende la noción de un token a una entidad X, que puede representar un token de parche individual, una celda (un agrupamiento k veces k de parches vecinos), una submuestra (un agrupamiento no local de parches distantes), una escala (resolución de gruesa a fina), o incluso una imagen completa. Además, reformulamos la clasificación de token discreto como regresión continua de entidad, aprovechando métodos de coincidencia de flujo en cada paso AR. Este enfoque condiciona el entrenamiento en entidades ruidosas en lugar de tokens de verdad, lo que conduce al Aprendizaje de Contexto Ruidoso, que alivia efectivamente el sesgo de exposición. Como resultado, xAR ofrece dos ventajas clave: (1) permite unidades de predicción flexibles que capturan diferentes granularidades contextuales y estructuras espaciales, y (2) mitiga el sesgo de exposición al evitar depender del forzamiento del profesor. En la evaluación de generación de ImageNet-256, nuestro modelo base, xAR-B (172M), supera a DiT-XL/SiT-XL (675M) logrando una inferencia 20 veces más rápida. Mientras tanto, xAR-H establece un nuevo estado del arte con un FID de 1.24, funcionando 2.2 veces más rápido que el modelo anteriormente mejor clasificado sin depender de módulos de visión fundamentales (por ejemplo, DINOv2) o muestreo avanzado de intervalos de guía.
La construcción de objetos articulados es un desafío clave en visión por computadora. Los métodos existentes a menudo no logran integrar de manera efectiva la información a través de diferentes estados del objeto, lo que limita la precisión de la reconstrucción de mallas de partes y el modelado de dinámicas de partes, especialmente para objetos articulados de múltiples partes complejos. Presentamos ArtGS, un enfoque novedoso que aprovecha los Gaussianos 3D como una representación flexible y eficiente para abordar estos problemas. Nuestro método incorpora Gaussianos canónicos con inicialización y actualizaciones de grueso a fino para alinear la información de partes articuladas a través de diferentes estados del objeto, y emplea un módulo de modelado de dinámicas de partes inspirado en el "skinning" para mejorar tanto la reconstrucción de mallas de partes como el aprendizaje de articulaciones. Experimentos extensos en conjuntos de datos sintéticos y del mundo real, incluido un nuevo punto de referencia para objetos articulados de múltiples partes complejos, demuestran que ArtGS logra un rendimiento de vanguardia en la estimación de parámetros conjuntos y la reconstrucción de mallas de partes. Nuestro enfoque mejora significativamente la calidad y eficiencia de la reconstrucción, especialmente para objetos articulados de múltiples partes. Además, proporcionamos análisis exhaustivos de nuestras decisiones de diseño, validando la efectividad de cada componente para resaltar áreas potenciales de mejora futura.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) basado en Optimización de Políticas Proximales (PPO) es esencial para alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas. Este enfoque requiere el entrenamiento conjunto de un actor y un crítico con un modelo de recompensa preentrenado y fijo como guía. Este método aumenta la complejidad computacional y la inestabilidad debido a la interdependencia entre el actor y el crítico. Además, PPO no tiene acceso a las recompensas reales del entorno en tareas de LLM, lo que limita su adaptabilidad. En tales condiciones, el preentrenamiento de un modelo de valor o un modelo de recompensa se vuelve equivalente, ya que ambos proporcionan señales de supervisión fijas sin nueva retroalimentación de verdad fundamental. Para abordar estos problemas, proponemos la Optimización de Políticas con Valor Desacoplado (DVPO), un marco ligero que reemplaza el modelado tradicional de recompensas con un modelo de valor global preentrenado (GVM). El GVM está condicionado a las trayectorias de la política y predice estimaciones de retorno a nivel de token. Al desacoplar el modelo de valor del entrenamiento de la política (mediante objetivos de RL impulsados por un GVM congelado), DVPO elimina la interdependencia entre el actor y el crítico, reduciendo el uso de memoria GPU en un 40\% y el tiempo de entrenamiento en un 35\% en comparación con el RLHF convencional. Los experimentos en diversos benchmarks muestran que DVPO supera a los métodos eficientes de RLHF (por ejemplo, DPO) mientras iguala el rendimiento del PPO de última generación.
Los agentes autónomos de IA que utilizan grandes modelos de lenguaje pueden crear valores innegables en todos los ámbitos de la sociedad, pero enfrentan amenazas de seguridad por parte de adversarios que requieren soluciones protectoras inmediatas debido a problemas de confianza y seguridad que surgen. Considerando el jailbreaking de múltiples disparos y el alineamiento engañoso como algunos de los principales ataques avanzados, que no pueden ser mitigados por las barreras estáticas utilizadas durante el entrenamiento supervisado, señala una prioridad crucial de investigación para la robustez en el mundo real. La combinación de barreras estáticas en un sistema multiagente dinámico falla en defenderse contra esos ataques. Nuestro objetivo es mejorar la seguridad de los agentes basados en LLM a través del desarrollo de nuevos marcos de evaluación que identifiquen y contrarresten amenazas para un despliegue operativo seguro. Nuestro trabajo utiliza tres métodos de examen para detectar agentes maliciosos a través de una Prueba Inversa de Turing y analizar el alineamiento engañoso mediante simulaciones multiagente, y desarrolla un sistema contra el jailbreaking probándolo con los modelos GEMINI 1.5 pro y llama-3.3-70B, deepseek r1 utilizando escenarios adversariales mediados por herramientas. Las capacidades de detección son sólidas, como el 94\% de precisión para GEMINI 1.5 pro, sin embargo, el sistema sufre vulnerabilidades persistentes durante ataques prolongados a medida que la longitud de la solicitud aumenta las tasas de éxito del ataque (ASR) y las métricas de diversidad se vuelven ineficaces en la predicción, revelando múltiples fallos complejos del sistema. Los hallazgos demuestran la necesidad de adoptar sistemas de seguridad flexibles basados en monitoreo activo que pueden ser realizados por los propios agentes junto con intervenciones adaptables por parte del administrador del sistema, ya que los modelos actuales pueden crear vulnerabilidades que pueden llevar a un sistema poco confiable y vulnerable. Por lo tanto, en nuestro trabajo, intentamos abordar tales situaciones y proponemos un marco integral para contrarrestar los problemas de seguridad.
Los marcos predominantes para la resolución de problemas en la corriente principal dependen principalmente de modelos comerciales, lo que conlleva altos costos y preocupaciones sobre la privacidad. Los enfoques de entrenamiento existentes para la resolución de problemas luchan con una mala generalización y no logran aprovechar completamente los recursos de desarrollo de código abierto. Proponemos Subtask-oriented Reinforced Fine-Tuning (SoRFT), un enfoque de entrenamiento novedoso para mejorar la capacidad de resolución de problemas de LLMs. Descomponemos la resolución de problemas en subtareas estructuradas: localización de archivos, localización de funciones, localización de líneas y generación de edición de código. SoRFT consta de dos etapas de entrenamiento: (1) ajuste fino supervisado con muestreo de rechazo, los datos de Chain of Thought (CoT) se filtran utilizando la verdad fundamental antes de ajustar finamente el LLM, y (2) aprendizaje por refuerzo basado en reglas, que aprovecha PPO con recompensas basadas en la verdad fundamental. Evaluamos el modelo entrenado con SoRFT en SWE-Bench Verified y SWE-Bench Lite, logrando un rendimiento de vanguardia entre los modelos de código abierto (por ejemplo, resolviendo el 21.4% de los problemas en SWE-Bench Verified con SoRFT-Qwen-7B). Los resultados experimentales demuestran que SoRFT mejora significativamente el rendimiento en la resolución de problemas, mejora la generalización del modelo y proporciona una alternativa rentable a los modelos comerciales.
A pesar de los recientes avances en los grandes modelos de lenguaje (LLMs) mejorados con razonamiento, como DeepSeek-R1, la incorporación del razonamiento en tiempo de inferencia en la traducción automática (MT), donde los traductores humanos emplean naturalmente cadenas de pensamiento (CoTs) estructuradas y multicapa, sigue siendo un área poco explorada. Los métodos existentes o bien diseñan una CoT fija adaptada para una subtarea específica de MT (por ejemplo, traducción literaria), o bien dependen de la síntesis de CoTs no alineadas con los humanos y del ajuste fino supervisado (SFT) propenso al olvido catastrófico, lo que limita su adaptabilidad a diversos escenarios de traducción. Este artículo presenta R1-Translator (R1-T1), un marco novedoso para lograr el razonamiento en tiempo de inferencia para MT general mediante el aprendizaje por refuerzo (RL) con CoTs alineadas con los humanos que comprenden seis patrones comunes. Nuestro enfoque introduce tres innovaciones: (1) extender la traducción basada en razonamiento más allá de las subtareas de MT a seis idiomas y diversas tareas (por ejemplo, adaptación de dominio legal/médico, resolución de modismos); (2) formalizar seis plantillas de CoT curadas por expertos que reflejan estrategias humanas híbridas como la paráfrasis consciente del contexto y la traducción inversa; y (3) permitir el descubrimiento autoevolutivo de CoT y la adaptación anti-olvido mediante RL con recompensas restringidas por KL. Los resultados experimentales indican una mejora constante en el rendimiento de la traducción en 21 idiomas y 80 direcciones de traducción en el conjunto de pruebas Flores-101, especialmente en los 15 idiomas no vistos durante el entrenamiento, preservando sus habilidades multilingües generales en comparación con el SFT convencional.
En los modelos de lenguaje grandes (LLMs), ciertas neuronas pueden almacenar piezas distintas de conocimiento aprendidas durante el preentrenamiento. Aunque el conocimiento suele manifestarse como una combinación de relaciones y entidades, no está claro si algunas neuronas se centran en una relación en sí misma, independientemente de cualquier entidad. Planteamos la hipótesis de que tales neuronas detectan una relación en el texto de entrada y guían la generación que involucra dicha relación. Para investigar esto, estudiamos la familia Llama-2 en un conjunto elegido de relaciones con un método basado en estadísticas. Nuestros experimentos demuestran la existencia de neuronas específicas de relación. Medimos el efecto de desactivar selectivamente las neuronas candidatas específicas para la relación r en la capacidad del LLM para manejar (1) hechos cuya relación es r y (2) hechos cuya relación es una relación diferente r' distinta de r. Con respecto a su capacidad para codificar información de relación, presentamos evidencia de las siguientes tres propiedades de las neuronas específicas de relación. (i) Cumulatividad de neuronas. Las neuronas para r presentan un efecto acumulativo de modo que desactivar una parte más grande de ellas resulta en la degradación de más hechos en r. (ii) Versatilidad de neuronas. Las neuronas pueden ser compartidas entre múltiples relaciones estrechamente relacionadas así como relaciones menos relacionadas. Algunas neuronas de relación se transfieren entre idiomas. (iii) Interferencia de neuronas. Desactivar neuronas específicas de una relación puede mejorar el rendimiento de generación del LLM para hechos de otras relaciones. Pondremos nuestro código a disposición del público en https://github.com/cisnlp/relation-specific-neurons.
Los marcos de agentes y algoritmos de inferencia actuales a menudo enfrentan dificultades con problemas de planificación complejos debido a limitaciones en la verificación de planes generados o en el razonamiento y la complejidad variable de instancias dentro de una sola tarea. Muchos métodos existentes para estas tareas realizan verificación a nivel de tarea sin considerar restricciones, o aplican algoritmos de tiempo de inferencia sin adaptarse a la complejidad a nivel de instancia. Para abordar estas limitaciones, proponemos PlanGEN, un marco de agentes agnóstico al modelo y fácilmente escalable con tres componentes clave: agentes de restricción, verificación y selección. Específicamente, nuestro enfoque propone verificación iterativa guiada por restricciones para mejorar el rendimiento de algoritmos de tiempo de inferencia: Best of N, Tree-of-Thought y REBASE. En el marco de PlanGEN, el agente de selección optimiza la elección del algoritmo basándose en la complejidad de la instancia, asegurando una mejor adaptabilidad a problemas de planificación complejos. Los resultados experimentales muestran mejoras significativas sobre la línea base más sólida en múltiples puntos de referencia, logrando resultados de vanguardia en NATURAL PLAN (sim8%uparrow), OlympiadBench (sim4%uparrow), DocFinQA (sim7%uparrow) y GPQA (sim1%uparrow). Nuestro hallazgo clave destaca que la verificación iterativa guiada por restricciones mejora los algoritmos de tiempo de inferencia, y la selección adaptativa impulsa aún más el rendimiento en problemas de planificación y razonamiento complejos.
El Entrenamiento de Consistencia (CT, por sus siglas en inglés) ha surgido recientemente como una alternativa prometedora a los modelos de difusión, logrando un rendimiento competitivo en tareas de generación de imágenes. Sin embargo, el entrenamiento de consistencia sin destilación a menudo sufre de alta varianza e inestabilidad, y analizar y mejorar su dinámica de entrenamiento es un área activa de investigación. En este trabajo, proponemos un enfoque de entrenamiento CT novedoso basado en el marco de Coincidencia de Flujo. Nuestra principal contribución es un esquema de acoplamiento de ruido entrenado inspirado en la arquitectura de Autoencoders Variacionales (VAE). Al entrenar un modelo de emisión de ruido dependiente de los datos implementado como una arquitectura de codificador, nuestro método puede aprender indirectamente la geometría de la asignación de ruido a datos, que en cambio está fija por la elección del proceso directo en el CT clásico. Los resultados empíricos en diversos conjuntos de datos de imágenes muestran mejoras generativas significativas, con nuestro modelo superando a los baselines y logrando el estado del arte (SoTA) en CT sin destilación FID en CIFAR-10, y alcanzando un FID comparable al SoTA en ImageNet a una resolución de 64 veces 64 en generación de 2 pasos. Nuestro código está disponible en https://github.com/sony/vct.
La representación de escenas dinámicas a partir de videos monoculares es una tarea crucial pero desafiante. El reciente método de Splatting Gaussiano deformable ha surgido como una solución robusta para representar escenas dinámicas del mundo real. Sin embargo, a menudo conduce a Gaussiano altamente redundantes, intentando ajustarse a cada vista de entrenamiento en diferentes momentos, lo que resulta en velocidades de renderización más lentas. Además, los atributos de los Gaussianos en áreas estáticas son invariantes en el tiempo, lo que hace innecesario modelar cada Gaussiano, lo que puede causar vibraciones en regiones estáticas. En la práctica, el cuello de botella principal en la velocidad de renderización para escenas dinámicas es el número de Gaussianos. En respuesta, presentamos el Splatting Gaussiano Dinámico Eficiente (EDGS), que representa escenas dinámicas mediante modelado de atributos esparsos variantes en el tiempo. Nuestro enfoque formula escenas dinámicas utilizando una representación de rejilla de anclaje esparsa, con el flujo de movimiento de Gaussianos densos calculado a través de una representación de kernel clásica. Además, proponemos una estrategia no supervisada para filtrar eficientemente los anclajes correspondientes a áreas estáticas. Solo los anclajes asociados con objetos deformables se introducen en MLPs para consultar atributos variantes en el tiempo. Experimentos en dos conjuntos de datos del mundo real demuestran que nuestro EDGS mejora significativamente la velocidad de renderización con una calidad de renderización superior en comparación con los métodos anteriores de vanguardia.