HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

18 papers found

VESPO: Optimización de Políticas Suaves a Nivel de Secuencia Variacional para un Entrenamiento Estable de LLM Fuera de Política
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Feb 11

ByGuobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

158

La estabilidad del entrenamiento sigue siendo un desafío central en el aprendizaje por refuerzo (RL) para modelos de lenguaje grandes (LLM). La obsolescencia de la política, el entrenamiento asíncrono y los desajustes entre los motores de entrenamiento e inferencia hacen que la política de comportamiento diverja de la política actual, arriesgando un colapso del entrenamiento. El muestreo por importancia proporciona una corrección fundamentada para este cambio de distribución, pero sufre de alta varianza; los remedios existentes, como el recorte a nivel de token y la normalización a nivel de secuencia, carecen de una base teórica unificada. Proponemos la Optimización de Políticas Suaves a Nivel de Secuencia Variacional (VESPO). Al incorporar la reducción de varianza en una formulación variacional sobre distribuciones de propuesta, VESPO deriva un núcleo de remodelación de forma cerrada que opera directamente sobre los pesos de importancia a nivel de secuencia sin normalización de longitud. Los experimentos en benchmarks de razonamiento matemático muestran que VESPO mantiene un entrenamiento estable bajo ratios de obsolescencia de hasta 64x y ejecución completamente asíncrona, y proporciona ganancias consistentes tanto en modelos densos como en modelos de Mezcla de Expertos (Mixture-of-Experts). El código está disponible en https://github.com/FloyedShen/VESPO.

¿Tu Modelo de Razonamiento Sabe Implícitamente Cuándo Dejar de Pensar?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Feb 9

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

Los recientes avances en modelos de razonamiento a gran escala (LRM) han mejorado sustancialmente sus capacidades en tareas de razonamiento complejo mediante Cadenas Largas de Pensamiento (CoT). Sin embargo, este enfoque a menudo genera una redundancia sustancial, perjudicando la eficiencia computacional y causando retrasos significativos en aplicaciones en tiempo real. Estudios recientes demuestran que las cadenas de razonamiento más largas frecuentemente no se correlacionan con la corrección e incluso pueden ser perjudiciales para la precisión. En un análisis más profundo de este fenómeno, descubrimos y verificamos empíricamente, de manera sorprendente, que los LRM saben implícitamente cuándo es el momento adecuado para dejar de pensar, aunque esta capacidad queda oscurecida por los paradigmas de muestreo actuales. Motivados por esto, presentamos SAGE (Razonamiento Eficiente Guiado por Autoconciencia), un novedoso paradigma de muestreo que libera este potencial de razonamiento eficiente. Además, la integración de SAGE como muestreo mixto en el aprendizaje por refuerzo basado en grupos (SAGE-RL) permite a SAGE-RL incorporar eficazmente los patrones de razonamiento eficiente descubiertos por SAGE en la inferencia estándar pass@1, mejorando notablemente tanto la precisión como la eficiencia del razonamiento de los LRM en múltiples benchmarks matemáticos desafiantes.

Realidad Generada: Simulación de Mundos Centrada en el Humano mediante Generación Interactiva de Video con Control Manual y de Cámara
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Feb 20

ByLinxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

La realidad extendida (XR) requiere modelos generativos que respondan al movimiento del usuario en el mundo real rastreado, sin embargo, los modelos de video mundiales actuales solo aceptan señales de control básicas como texto o entrada por teclado, lo que limita su utilidad para la interacción corporeizada. Introducimos un modelo de video mundial centrado en el humano que se condiciona tanto por la pose de la cabeza rastreada como por las poses de las manos a nivel articular. Para ello, evaluamos las estrategias existentes de condicionamiento en transformadores de difusión y proponemos un mecanismo efectivo para el control tridimensional de cabeza y manos, permitiendo interacciones diestras entre manos y objetos. Entrenamos un modelo maestro de difusión de video bidireccional utilizando esta estrategia y lo destilamos en un sistema causal e interactivo que genera entornos virtuales en primera persona. Evaluamos este sistema de realidad generada con sujetos humanos y demostramos una mejora en el rendimiento de tareas, así como un nivel significativamente mayor de percepción de control sobre las acciones realizadas en comparación con líneas base relevantes.

Abarcando el Espacio de Analogía Visual con una Base de Peso de LoRAs
Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Feb 17

ByHila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik

El aprendizaje por analogía visual permite la manipulación de imágenes mediante demostración en lugar de descripción textual, permitiendo a los usuarios especificar transformaciones complejas difíciles de articular con palabras. Dado un triplete {a, a', b}, el objetivo es generar b' tal que a : a' :: b : b'. Los métodos recientes adaptan modelos de texto a imagen a esta tarea utilizando un único módulo de Adaptación de Bajo Rango (LoRA), pero enfrentan una limitación fundamental: intentar capturar el espacio diverso de transformaciones visuales dentro de un módulo de adaptación fijo restringe las capacidades de generalización. Inspirados por trabajos recientes que muestran que los LoRAs en dominios restringidos abarcan espacios semánticos significativos e interpolables, proponemos LoRWeB, un enfoque novedoso que especializa el modelo para cada tarea de analogía en tiempo de inferencia mediante la composición dinámica de primitivas de transformación aprendidas, informalmente, eligiendo un punto en un "espacio de LoRAs". Introducimos dos componentes clave: (1) una base aprendible de módulos LoRA, para abarcar el espacio de diferentes transformaciones visuales, y (2) un codificador ligero que selecciona y pondera dinámicamente estos LoRAs base en función del par de analogía de entrada. Evaluaciones exhaustivas demuestran que nuestro enfoque logra un rendimiento de vanguardia y mejora significativamente la generalización a transformaciones visuales no vistas. Nuestros hallazgos sugieren que las descomposiciones en base LoRA son una dirección prometedora para la manipulación visual flexible. El código y los datos están en https://research.nvidia.com/labs/par/lorweb.

Decodificación como Optimización en el Símplex de Probabilidad: Desde Muestreadores Top-K hasta Top-P (Núcleo) y Best-of-K
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Feb 20

ByXiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar

La decodificación se sitúa entre un modelo de lenguaje y todo lo que hacemos con él, sin embargo, aún se trata como un ejercicio heurístico de ajuste de parámetros. Sostenemos que la decodificación debe entenderse como una capa de optimización con bases sólidas: en cada token, resolvemos un problema regularizado sobre el símplex de probabilidades que equilibra la puntuación del modelo con las preferencias y restricciones estructurales. Esta plantilla única recupera como casos especiales la decodificación voraz, el muestreo Softmax, Top-K, Top-P y la esparsidad al estilo Sparsemax, y explica su estructura común a través de condiciones de optimalidad. Más importante aún, el marco facilita la creación de nuevos decodificadores sin recurrir al conocimiento informal. Lo demostramos diseñando Best-of-K (BoK), un objetivo de cobertura anclado en la divergencia KL dirigido a pipelines de múltiples muestras (autoconsistencia, reranking, selección por verificador). BoK se centra en la probabilidad de cubrir buenas alternativas dentro de un presupuesto fijo de K muestras y mejora el rendimiento empírico. Mostramos que dichas muestras pueden mejorar la precisión, por ejemplo, en un +18.6% para Qwen2.5-Math-7B en MATH500 con altas temperaturas de muestreo.

EgoPush: Aprendizaje de Reorganización Egocéntrica Multiobjeto de Extremo a Extremo para Robots Móviles
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng

Los seres humanos pueden reorganizar objetos en entornos desordenados utilizando percepción egocéntrica, navegando oclusiones sin coordenadas globales. Inspirados por esta capacidad, estudiamos la reorganización no prensil de múltiples objetos a largo horizonte para robots móviles utilizando una única cámara egocéntrica. Presentamos EgoPush, un marco de aprendizaje de políticas que permite la reorganización egocéntrica impulsada por percepción, sin depender de la estimación explícita del estado global que suele fallar en escenas dinámicas. EgoPush diseña un espacio latente centrado en objetos para codificar relaciones espaciales relativas entre objetos, en lugar de poses absolutas. Este diseño permite que un profesor de aprendizaje por refuerzo (RL) privilegiado aprenda conjuntamente estados latentes y acciones móviles a partir de puntos clave dispersos, los cuales luego se destilan en una política estudiantil puramente visual. Para reducir la brecha de supervisión entre el profesor omnisciente y el estudiante parcialmente observado, restringimos las observaciones del profesor a señales visualmente accesibles. Esto induce comportamientos de percepción activa que son recuperables desde el punto de vista del estudiante. Para abordar la asignación de crédito a largo horizonte, descomponemos la reorganización en subproblemas a nivel de etapa utilizando recompensas de finalización locales por etapa y con decaimiento temporal. Extensos experimentos de simulación demuestran que EgoPush supera significativamente a los métodos base de RL de extremo a extremo en tasa de éxito, con estudios de ablación que validan cada decisión de diseño. Además, demostramos la transferencia *zero-shot* de simulación a realidad en una plataforma móvil en el mundo real. El código y los vídeos están disponibles en https://ai4ce.github.io/EgoPush/.

SARAH: Humanos Agentes en Tiempo Real con Conciencia Espacial
SARAH: Spatially Aware Real-time Agentic Humans

Feb 20

ByEvonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard

A medida que los agentes corporizados se vuelven centrales en aplicaciones de realidad virtual, telepresencia y humanos digitales, su movimiento debe ir más allá de los gestos alineados con el habla: los agentes deben girar hacia los usuarios, responder a sus movimientos y mantener una mirada natural. Los métodos actuales carecen de esta conciencia espacial. Cerramos esta brecha con el primer método en tiempo real y completamente causal para movimiento conversacional espacialmente consciente, desplegable en un casco de VR de transmisión. Dada la posición de un usuario y el audio diádico, nuestro enfoque produce movimiento corporal completo que alinea los gestos con el habla mientras orienta al agente según el usuario. Nuestra arquitectura combina un VAE causal basado en transformers con tokens latentes entrelazados para inferencia en streaming y un modelo de flujo coincidente condicionado por la trayectoria del usuario y el audio. Para admitir diversas preferencias de mirada, introducimos un mecanismo de puntuación de la mirada con guía libre de clasificador para desacoplar el aprendizaje del control: el modelo captura la alineación espacial natural de los datos, mientras los usuarios pueden ajustar la intensidad del contacto visual en tiempo de inferencia. En el conjunto de datos Embody 3D, nuestro método logra una calidad de movimiento de vanguardia a más de 300 FPS — 3 veces más rápido que los métodos de referencia no causales — mientras captura la sutil dinámica espacial de la conversación natural. Validamos nuestro enfoque en un sistema de VR en vivo, llevando agentes conversacionales espacialmente conscientes a un despliegue en tiempo real. Consulte https://evonneng.github.io/sarah/ para más detalles.

Avey-B
Avey-B

Feb 17

ByDevang Acharya, Mohammad Hammoud

Los codificadores bidireccionales preentrenados compactos siguen siendo la columna vertebral de la PNL industrial con restricciones estrictas de cómputo y memoria. Su eficacia proviene de la capacidad de la autoatención para ofrecer una contextualización bidireccional de alta calidad con paralelismo a nivel de secuencia, popularizada por las arquitecturas estilo BERT. Recientemente, se introdujo Avey como una alternativa autorregresiva y libre de atención que admite naturalmente una adaptación de solo codificador. En este artículo, reformulamos Avey para el paradigma de solo codificador y proponemos varias innovaciones en su arquitectura, incluyendo parametrizaciones estáticas y dinámicas desacopladas, normalización orientada a la estabilidad y compresión neuronal. Los resultados muestran que esta arquitectura reformulada se compara favorablemente con cuatro codificadores basados en Transformer ampliamente utilizados, superándolos consistentemente en benchmarks estándar de clasificación de tokens y recuperación de información, mientras escala de manera más eficiente a contextos largos.

DeepVision-103K: Un conjunto de datos matemático visualmente diverso, de amplia cobertura y verificable para el razonamiento multimodal
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Feb 18

ByHaoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado ser eficaz para mejorar las capacidades de reflexión visual y razonamiento de los Modelos Multimodales Grandes (LMMs). Sin embargo, los conjuntos de datos existentes se derivan predominantemente de construcciones manuales a pequeña escala o de la recombinación de recursos previos, lo que limita la diversidad y cobertura de los datos, restringiendo así nuevas mejoras en el rendimiento del modelo. Para abordar esto, presentamos DeepVision-103K, un conjunto de datos integral para el entrenamiento de RLVR que abarca diversos temas matemáticos de K12, extensos puntos de conocimiento y ricos elementos visuales. Los modelos entrenados con DeepVision logran un sólido rendimiento en benchmarks matemáticos multimodales y generalizan eficazmente a tareas generales de razonamiento multimodal. Un análisis más profundo revela capacidades mejoradas de percepción visual, reflexión y razonamiento en los modelos entrenados, validando la efectividad de DeepVision para impulsar el razonamiento multimodal. Datos: https://huggingface.co/datasets/skylenage/DeepVision-103K.

VidEoMT: Tu ViT es en secreto también un modelo de segmentación de vídeo
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Feb 19

ByNarges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

Los modelos existentes de segmentación de vídeo online suelen combinar un segmentador por fotograma con módulos de seguimiento especializados y complejos. Aunque son efectivos, estos módulos introducen una complejidad arquitectónica y una sobrecarga computacional significativas. Estudios recientes sugieren que los codificadores Vision Transformer (ViT) básicos, cuando se escalan con suficiente capacidad y pre-entrenamiento a gran escala, pueden realizar una segmentación precisa de imágenes sin necesidad de módulos especializados. Motivados por esta observación, proponemos el Video Encoder-only Mask Transformer (VidEoMT), un modelo de segmentación de vídeo simple que solo utiliza un codificador y elimina la necesidad de módulos de seguimiento dedicados. Para permitir el modelado temporal en un ViT de solo codificación, VidEoMT introduce un mecanismo ligero de propagación de consultas que transporta información entre fotogramas reutilizando las consultas del fotograma anterior. Para equilibrar esto con la adaptabilidad a nuevo contenido, emplea una estrategia de fusión de consultas que combina las consultas propagadas con un conjunto de consultas aprendidas temporalmente agnósticas. Como resultado, VidEoMT obtiene las ventajas de un rastreador sin añadir complejidad, logrando una precisión competitiva mientras es entre 5 y 10 veces más rápido, funcionando hasta a 160 FPS con un backbone ViT-L. Código: https://www.tue-mps.org/videomt/

4RC: Reconstrucción 4D mediante Consulta Condicional en Cualquier Momento y Lugar
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Feb 10

ByYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy

Presentamos 4RC, un marco unificado de propagación hacia adelante para la reconstrucción 4D a partir de vídeos monoculares. A diferencia de los enfoques existentes, que normalmente desacoplan el movimiento de la geometría o producen atributos 4D limitados, como trayectorias dispersas o flujo de escena entre dos vistas, 4RC aprende una representación 4D holística que captura conjuntamente la geometría densa de la escena y la dinámica del movimiento. En su núcleo, 4RC introduce un novedoso paradigma de codificar-una-vez, consultar-en-cualquier-parte-y-en-cualquier-momento: una arquitectura transformer codifica el vídeo completo en un espacio latente espacio-temporal compacto, a partir del cual un decodificador condicional puede consultar eficientemente la geometría 3D y el movimiento para cualquier fotograma de consulta en cualquier marca de tiempo objetivo. Para facilitar el aprendizaje, representamos los atributos 4D por vista en una forma mínimamente factorizada, descomponiéndolos en una geometría base y un movimiento relativo dependiente del tiempo. Experimentos exhaustivos demuestran que 4RC supera a métodos anteriores y concurrentes en una amplia gama de tareas de reconstrucción 4D.

Aprendizaje de Políticas Lineales Suaves Variantes en el Tiempo con una Penalización del Jacobiano de la Acción
Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Feb 20

ByZhaoming Xie, Kevin Karol, Jessica Hodgins

El aprendizaje por refuerzo proporciona un marco para aprender políticas de control que pueden reproducir diversos movimientos para personajes simulados. Sin embargo, dichas políticas a menudo explotan señales antinaturales de alta frecuencia que son inalcanzables para humanos o robots físicos, lo que las convierte en representaciones deficientes de comportamientos del mundo real. Los trabajos existentes abordan este problema añadiendo un término de recompensa que penaliza un cambio grande en las acciones a lo largo del tiempo. Este término a menudo requiere esfuerzos de ajuste sustanciales. Proponemos utilizar la penalización del Jacobiano de la acción, que penaliza los cambios en la acción con respecto a los cambios en el estado simulado directamente mediante diferenciación automática. Esto elimina eficazmente las señales de control irreales de alta frecuencia sin necesidad de ajustes específicos para la tarea. Si bien es efectiva, la penalización del Jacobiano de la acción introduce una sobrecarga computacional significativa cuando se utiliza con arquitecturas tradicionales de redes neuronales totalmente conectadas. Para mitigar esto, introducimos una nueva arquitectura llamada Red de Política Lineal (LPN, por sus siglas en inglés) que reduce significativamente la carga computacional para calcular la penalización del Jacobiano de la acción durante el entrenamiento. Además, una LPN no requiere ajuste de parámetros, exhibe una convergencia de aprendizaje más rápida en comparación con los métodos de referencia y puede consultarse de manera más eficiente durante el tiempo de inferencia en comparación con una red neuronal totalmente conectada. Demostramos que una Red de Política Lineal, combinada con la penalización del Jacobiano de la acción, es capaz de aprender políticas que generan señales suaves mientras resuelve una serie de tareas de imitación de movimiento con diferentes características, incluyendo movimientos dinámicos como un salto mortal hacia atrás y varias habilidades desafiantes de parkour. Finalmente, aplicamos este enfoque para crear políticas para movimientos dinámicos en un robot cuadrúpedo físico equipado con un brazo.

Poda Consciente del Hundimiento para Modelos de Lenguaje de Difusión
Sink-Aware Pruning for Diffusion Language Models

Feb 19

ByAidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen

Los Modelos de Lenguaje de Difusión (DLM) incurren en un alto costo de inferencia debido al desruido iterativo, lo que motiva la poda eficiente. Las heurísticas de poda existentes, heredadas en gran medida de los LLM autoregresivos (AR), suelen preservar los tokens de atención "sumidero" (attention sink), ya que los sumideros AR sirven como anclas globales estables. Demostramos que este supuesto no se cumple para los DLM: la posición del sumidero de atención exhibe una varianza sustancialmente mayor a lo largo de la trayectoria de generación completa (medida por cómo las ubicaciones dominantes del sumidero cambian entre los pasos de tiempo), lo que indica que los sumideros son a menudo transitorios y menos esenciales estructuralmente que en los modelos AR. Basándonos en esta observación, proponemos la **Poda Consciente del Sumidero (Sink-Aware Pruning)**, que identifica y poda automáticamente los sumideros inestables en los DLM (los estudios previos suelen mantener los sumideros para los LLM AR). Sin necesidad de reentrenamiento, nuestro método logra un mejor equilibrio entre calidad y eficiencia y supera a sólidos métodos de poda anteriores bajo un cómputo equivalente. Nuestro código está disponible en https://github.com/VILA-Lab/Sink-Aware-Pruning.

Entrenamiento Selectivo para Grandes Modelos de Lenguaje Visual mediante la Ganancia de Información Visual
Selective Training for Large Vision Language Models via Visual Information Gain

Feb 19

BySeulbi Lee, Sangheum Hwang

Los Grandes Modelos de Lenguaje y Visión (LVLM) han logrado avances notables, pero a menudo adolecen de sesgo lingüístico, generando respuestas sin basarse en la evidencia visual. Si bien trabajos previos han intentado mitigar este problema mediante estrategias de decodificación, modificaciones arquitectónicas o datos de instrucción seleccionados, generalmente carecen de una medida cuantitativa de cuánto se benefician realmente las muestras de entrenamiento individuales o los tokens de la imagen. En este trabajo, presentamos la Ganancia de Información Visual (VIG), una métrica basada en perplejidad que mide la reducción en la incertidumbre de predicción proporcionada por la entrada visual. VIG permite un análisis detallado tanto a nivel de muestra como de token, destacando efectivamente elementos visualmente fundamentados como colores, relaciones espaciales y atributos. Aprovechando esto, proponemos un esquema de entrenamiento selectivo guiado por VIG que prioriza muestras y tokens con alto VIG. Este enfoque mejora la fundamentación visual y mitiga el sesgo lingüístico, logrando un rendimiento superior con una supervisión significativamente reducida al centrarse exclusivamente en muestras y tokens visualmente informativos.

ReIn: Recuperación de Errores Conversacionales mediante Razonamiento Inicial
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür

Los agentes conversacionales impulsados por grandes modelos de lenguaje (LLM) con integración de herramientas logran un alto rendimiento en conjuntos de datos de diálogo orientados a tareas fijas, pero siguen siendo vulnerables a errores imprevistos inducidos por el usuario. En lugar de centrarse en la prevención de errores, este trabajo se enfoca en la recuperación de errores, lo que requiere un diagnóstico preciso de contextos de diálogo erróneos y la ejecución de planes de recuperación adecuados. Bajo restricciones realistas que impiden el ajuste fino del modelo o la modificación de *prompts* debido a los significativos requisitos de costo y tiempo, exploramos si los agentes pueden recuperarse de interacciones contextualmente defectuosas y cómo su comportamiento puede adaptarse sin alterar los parámetros del modelo ni los *prompts*. Con este fin, proponemos *Reasoning Inception* (ReIn), un método de intervención en tiempo de prueba que implanta un razonamiento inicial en el proceso de toma de decisiones del agente. Específicamente, un módulo de inicio externo identifica errores predefinidos en el contexto del diálogo y genera planes de recuperación, que posteriormente se integran en el proceso de razonamiento interno del agente para guiar acciones correctivas, sin modificar sus parámetros o *prompts* del sistema. Evaluamos ReIn simulando sistemáticamente escenarios de fallo conversacional que dificultan directamente la finalización exitosa de los objetivos del usuario: solicitudes ambiguas y no soportadas por parte del usuario. En diversas combinaciones de modelos de agentes y módulos de inicio, ReIn mejora sustancialmente el éxito de la tarea y generaliza a tipos de errores no vistos. Además, supera consistentemente a los enfoques de modificación explícita de *prompts*, subrayando su utilidad como un método eficiente y en tiempo real. Un análisis en profundidad de su mecanismo operativo, particularmente en relación con la jerarquía de instrucciones, indica que definir conjuntamente herramientas de recuperación con ReIn puede servir como una estrategia segura y efectiva para mejorar la resiliencia de los agentes conversacionales sin modificar los modelos base o los *prompts* del sistema.

Adam Mejora Muon: Estimación Adaptativa del Momento con Momento Ortogonalizado
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Feb 19

ByMinxin Zhang, Yuxuan Liu, Hayden Scheaffer

La optimización estocástica eficiente generalmente integra una dirección de actualización que funciona bien en el régimen determinista con un mecanismo que se adapta a las perturbaciones estocásticas. Mientras que Adam utiliza estimaciones adaptativas de momentos para promover la estabilidad, Muon aprovecha la estructura matricial de las capas de pesos mediante momentum ortogonalizado, mostrando un rendimiento superior en el entrenamiento de modelos de lenguaje grandes. Proponemos un nuevo optimizador y una extensión diagonal, NAMO y NAMO-D, que proporcionan la primera integración fundamentada del momentum ortogonalizado con la adaptación al ruido de tipo Adam basada en normas. NAMO escala el momentum ortogonalizado utilizando un único tamaño de paso adaptativo, preservando la ortogonalidad mientras mejora a Muon con un coste adicional insignificante. En cambio, NAMO-D multiplica por la derecha el momentum ortogonalizado por una matriz diagonal con entradas limitadas. Este diseño permite una adaptación al ruido a nivel de neurona y se alinea con la estructura común del Hessiano casi diagonal por bloques. Bajo supuestos estándar, establecemos tasas de convergencia óptimas para ambos algoritmos en el entorno determinista y demostramos que, en el entorno estocástico, sus garantías de convergencia se adaptan al nivel de ruido de los gradientes estocásticos. Los experimentos de preentrenamiento con modelos GPT-2 demuestran un mejor rendimiento tanto de NAMO como de NAMO-D en comparación con los baselines AdamW y Muon, logrando NAMO-D ganancias adicionales sobre NAMO mediante un hiperparámetro de limitación adicional que equilibra los objetivos contrapuestos de mantener una dirección de actualización bien condicionada y aprovechar la adaptación al ruido a grano fino.

Rúbricas como Superficie de Ataque: Desviación Sutil de Preferencias en Evaluadores de LLM
Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Feb 14

ByRuomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng

Las canalizaciones de evaluación y alineación para modelos de lenguaje grandes dependen cada vez más de evaluadores basados en LLM, cuyo comportamiento se guía por rúbricas en lenguaje natural y se valida mediante puntos de referencia. Identificamos una vulnerabilidad previamente poco reconocida en este flujo de trabajo, que denominamos Deriva de Preferencias Inducida por Rúbricas (RIPD). Incluso cuando las ediciones de las rúbricas superan la validación de referencia, aún pueden producir cambios sistemáticos y direccionales en las preferencias de un evaluador en dominios objetivo. Debido a que las rúbricas sirven como una interfaz de decisión de alto nivel, esta deriva puede surgir de ediciones aparentemente naturales que preservan los criterios y permanecer difícil de detectar mediante métricas agregadas de referencia o verificaciones puntuales limitadas. Además, demostramos que esta vulnerabilidad puede explotarse mediante ataques de preferencia basados en rúbricas, en los que las ediciones de rúbricas compatibles con los puntos de referencia desvían las evaluaciones de una referencia humana fija o confiable en dominios objetivo, induciendo sistemáticamente RIPD y reduciendo la precisión en el dominio objetivo hasta en un 9.5% (utilidad) y un 27.9% (inocuidad). Cuando estas evaluaciones se utilizan para generar etiquetas de preferencia para el posterior entrenamiento, el sesgo inducido se propaga a través de las canalizaciones de alineación y se internaliza en las políticas entrenadas. Esto conduce a una deriva persistente y sistemática en el comportamiento del modelo. En general, nuestros hallazgos destacan las rúbricas de evaluación como una interfaz de control sensible y manipulable, revelando un riesgo de alineación a nivel del sistema que va más allá de la confiabilidad del evaluador. El código está disponible en: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Advertencia: Ciertas secciones pueden contener contenido potencialmente dañino que puede no ser apropiado para todos los lectores.

A Quién Consultar para Qué: Elicitación Grupal Adaptativa mediante Interacciones Multi-Turn con LLM
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Feb 15

ByRuomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel, Zhun Deng

La obtención de información para reducir la incertidumbre sobre propiedades latentes a nivel grupal a partir de encuestas y otras evaluaciones colectivas requiere asignar un esfuerzo de cuestionamiento limitado bajo costes reales y datos faltantes. Aunque los modelos de lenguaje grande (LLM) permiten interacciones adaptativas y multimodales en lenguaje natural, la mayoría de los métodos de obtención existentes optimizan qué preguntar con un grupo fijo de encuestados, y no adaptan la selección de encuestados ni aprovechan la estructura poblacional cuando las respuestas son parciales o incompletas. Para abordar esta brecha, estudiamos la obtención grupal adaptativa, un entorno de múltiples rondas donde un agente selecciona de forma adaptativa tanto las preguntas como los encuestados bajo presupuestos explícitos de consulta y participación. Proponemos un marco teóricamente fundamentado que combina (i) un objetivo de ganancia de información esperada basado en LLM para puntuar preguntas candidatas con (ii) una propagación de red neuronal de grafos heterogéneos que agrega las respuestas observadas y los atributos de los participantes para imputar las respuestas faltantes y guiar la selección de encuestados por ronda. Este procedimiento de bucle cerrado consulta a un subconjunto pequeño e informativo de individuos mientras infiere las respuestas a nivel poblacional mediante similitud estructurada. En tres conjuntos de datos de opinión del mundo real, nuestro método mejora consistentemente la predicción de respuestas a nivel poblacional bajo presupuestos restringidos, incluyendo una ganancia relativa >12% en CES con un presupuesto de encuestados del 10%.

ReIn: Recuperación de Errores Conversacionales mediante Razonamiento Inicial
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür