Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un paradigma clave para el entrenamiento posterior de Modelos de Lenguaje a Gran Escala (LLMs), especialmente en tareas de razonamiento complejo. Sin embargo, se ha demostrado que el entrenamiento básico de RLVR mejora el rendimiento en Pass@1 a expensas de la entropía de la política, lo que reduce la diversidad en la generación y limita el rendimiento en Pass@k, que generalmente representa el límite superior de la capacidad de razonamiento de los LLMs. En este artículo, analizamos sistemáticamente la diversidad de generación de la política desde la perspectiva de los problemas de entrenamiento y encontramos que la ampliación y actualización de estos problemas ayuda a mitigar el colapso de la entropía durante el entrenamiento. Basándonos en estas observaciones, proponemos una estrategia de Autojuego en Línea con Síntesis Variacional de Problemas (SvS) para el entrenamiento de RLVR, que utiliza las soluciones correctas de la política para sintetizar problemas variacionales mientras se asegura que sus respuestas de referencia permanezcan idénticas a las originales. Esta estrategia de auto-mejora mantiene eficazmente la entropía de la política durante el entrenamiento y mejora sustancialmente Pass@k en comparación con RLVR estándar, sosteniendo mejoras prolongadas y logrando ganancias absolutas del 18.3% y 22.8% en el rendimiento de Pass@32 en los benchmarks de nivel competitivo AIME24 y AIME25. Los experimentos en 12 benchmarks de razonamiento, con tamaños de modelo que varían desde 3B hasta 32B, demuestran consistentemente la generalizabilidad y robustez de SvS.
En este artículo, presentamos un nuevo paradigma de aprendizaje para agentes adaptativos de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) que elimina la necesidad de ajustar finamente los LLM subyacentes. Los enfoques existentes suelen ser rígidos, basándose en flujos de trabajo de reflexión estáticos y manualmente diseñados, o computacionalmente intensivos, requiriendo actualizaciones de gradiente de los parámetros del modelo LLM. En contraste, nuestro método permite una adaptación continua de bajo costo mediante el aprendizaje por refuerzo en línea basado en memoria. Formalizamos esto como un Proceso de Decisión de Markov Aumentado con Memoria (M-MDP, por sus siglas en inglés), equipado con una política de selección de casos neuronal para guiar las decisiones de acción. Las experiencias pasadas se almacenan en una memoria episódica, ya sea diferenciable o no paramétrica. La política se actualiza continuamente basándose en la retroalimentación del entorno a través de un mecanismo de reescritura de memoria, mientras que la mejora de la política se logra mediante una lectura eficiente de la memoria (recuperación). Instanciamos nuestro modelo de agente en el entorno de investigación profunda, denominado AgentFly, que alcanza el primer puesto en la validación de GAIA (87.88% Pass@3) y un 79.40% en el conjunto de prueba. Alcanza un 66.6% de F1 y un 80.4% de PM en el conjunto de datos DeepResearcher, superando al método basado en entrenamiento más avanzado, mientras que la memoria basada en casos añade entre 4.7% y 9.6% puntos absolutos en tareas fuera de distribución. Nuestro enfoque ofrece una vía escalable y eficiente para desarrollar agentes LLM generalistas capaces de aprendizaje continuo en tiempo real sin actualizaciones de gradiente, avanzando en el aprendizaje automático hacia la adquisición de habilidades abiertas y escenarios de investigación profunda. El código está disponible en https://github.com/Agent-on-the-Fly/AgentFly.
La manipulación móvil de largo horizonte guiada por lenguaje ha sido durante mucho tiempo un gran desafío en el razonamiento semántico encarnado, la manipulación generalizable y la locomoción adaptativa. Tres limitaciones fundamentales obstaculizan el progreso: En primer lugar, aunque los modelos de lenguaje grandes han mejorado el razonamiento espacial y la planificación de tareas a través de prioridades semánticas, las implementaciones existentes siguen confinadas a escenarios de mesa, sin abordar la percepción restringida y los rangos de actuación limitados de las plataformas móviles. En segundo lugar, las estrategias de manipulación actuales muestran una generalización insuficiente cuando se enfrentan a las diversas configuraciones de objetos encontradas en entornos de mundo abierto. En tercer lugar, aunque es crucial para el despliegue práctico, el requisito dual de mantener una alta maniobrabilidad de la plataforma junto con un control preciso del efector final en entornos no estructurados sigue siendo poco estudiado. En este trabajo, presentamos ODYSSEY, un marco unificado de manipulación móvil para robots cuadrúpedos ágiles equipados con manipuladores, que integra de manera fluida la planificación de tareas de alto nivel con el control de cuerpo completo de bajo nivel. Para abordar el desafío de la percepción egocéntrica en tareas condicionadas por lenguaje, introducimos un planificador jerárquico impulsado por un modelo de visión-lenguaje, que permite la descomposición de instrucciones de largo horizonte y la ejecución precisa de acciones. A nivel de control, nuestra novedosa política de cuerpo completo logra una coordinación robusta en terrenos desafiantes. Además, presentamos el primer punto de referencia para la manipulación móvil de largo horizonte, evaluando diversos escenarios interiores y exteriores. A través de una transferencia exitosa de simulación a realidad, demostramos la generalización y robustez del sistema en despliegues del mundo real, destacando la practicidad de los manipuladores con patas en entornos no estructurados. Nuestro trabajo avanza la viabilidad de asistentes robóticos generalizados capaces de realizar tareas complejas y dinámicas. Nuestra página del proyecto: https://kaijwang.github.io/odyssey.github.io/
Si bien la síntesis de video exocéntrica ha logrado grandes avances, la generación de video egocéntrico sigue siendo en gran medida inexplorada, lo que requiere modelar el contenido desde una perspectiva en primera persona junto con los patrones de movimiento de la cámara inducidos por los movimientos corporales del usuario. Para cerrar esta brecha, introducimos una nueva tarea de generación conjunta de video egocéntrico y movimiento humano, caracterizada por dos desafíos clave: 1) Alineación del punto de vista: la trayectoria de la cámara en el video generado debe alinearse con precisión con la trayectoria de la cabeza derivada del movimiento humano; 2) Interacción causal: el movimiento humano sintetizado debe alinearse causalmente con la dinámica visual observada en los fotogramas adyacentes del video. Para abordar estos desafíos, proponemos EgoTwin, un marco de generación conjunta de video-movimiento basado en la arquitectura del transformador de difusión. Específicamente, EgoTwin introduce una representación del movimiento centrada en la cabeza que ancla el movimiento humano a la articulación de la cabeza e incorpora un mecanismo de interacción inspirado en la cibernética que captura explícitamente la interacción causal entre el video y el movimiento dentro de las operaciones de atención. Para una evaluación exhaustiva, recopilamos un conjunto de datos a gran escala del mundo real de tripletas sincronizadas de texto-video-movimiento y diseñamos métricas novedosas para evaluar la consistencia entre el video y el movimiento. Experimentos extensos demuestran la efectividad del marco EgoTwin.
A medida que los modelos de lenguaje de gran escala (LLMs) se despliegan cada vez más en aplicaciones del mundo real, la necesidad de eliminar selectivamente conocimientos no deseados mientras se preserva la utilidad del modelo se ha vuelto primordial. Trabajos recientes han explorado el uso de autoencoders dispersos (SAEs) para realizar intervenciones precisas en características monosemánticas. Sin embargo, la mayoría de los métodos basados en SAEs operan durante la inferencia, lo que no genera cambios persistentes en los parámetros del modelo. Dichas intervenciones pueden ser eludidas o revertidas por actores maliciosos con acceso a los parámetros. Presentamos CRISP, un método eficiente en parámetros para el desaprendizaje persistente de conceptos utilizando SAEs. CRISP identifica automáticamente características destacadas de los SAEs en múltiples capas y suprime sus activaciones. Experimentamos con dos LLMs y demostramos que nuestro método supera enfoques previos en tareas críticas de desaprendizaje del benchmark WMDP, eliminando con éxito conocimientos dañinos mientras se preservan las capacidades generales y dentro del dominio. El análisis a nivel de características revela que CRISP logra una separación semánticamente coherente entre conceptos objetivo y benignos, permitiendo la supresión precisa de las características objetivo.
Facilitar la interacción de una entidad con objetos requiere identificar con precisión las partes que permiten acciones específicas. La fundamentación de affordances con supervisión débil (WSAG, por sus siglas en inglés) busca imitar el aprendizaje humano a partir de demostraciones en tercera persona, donde los humanos comprenden intuitivamente las partes funcionales sin necesidad de anotaciones a nivel de píxeles. Para lograrlo, la fundamentación se aprende típicamente utilizando un clasificador compartido en imágenes desde diferentes perspectivas, junto con estrategias de destilación que incorporan el proceso de descubrimiento de partes. Sin embargo, dado que las partes relevantes para las affordances no siempre son fácilmente distinguibles, los modelos dependen principalmente de la clasificación, enfocándose a menudo en patrones específicos de clase comunes que no están relacionados con las affordances. Para abordar esta limitación, vamos más allá del aprendizaje aislado a nivel de parte al introducir objetivos selectivos prototípicos y de contraste de píxeles que aprenden adaptivamente las señales relevantes para las affordances tanto a nivel de parte como de objeto, dependiendo de la granularidad de la información disponible. Inicialmente, identificamos los objetos asociados a la acción en imágenes tanto egocéntricas (centradas en el objeto) como exocéntricas (ejemplos en tercera persona) aprovechando CLIP. Luego, al cruzar referencias de los objetos descubiertos en vistas complementarias, excavamos las pistas precisas de affordance a nivel de parte en cada perspectiva. Al aprender consistentemente a distinguir las regiones relevantes para las affordances del contexto de fondo irrelevante, nuestro enfoque desplaza efectivamente la activación de áreas irrelevantes hacia señales de affordance significativas. Los resultados experimentales demuestran la efectividad de nuestro método. Los códigos están disponibles en github.com/hynnsk/SelectiveCL.
La programación competitiva ha surgido como un criterio fundamental para evaluar las capacidades de razonamiento y codificación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A pesar de los avances impresionantes en los puntos de referencia existentes, argumentamos que las evaluaciones actuales sobrestiman la competencia de los modelos, ocultando una brecha sustancial entre los LLMs y los programadores humanos de élite. Esta brecha surge de dos limitaciones clave: la insuficiente dificultad y alcance de los problemas de referencia, y el sesgo en la evaluación debido a casos de prueba de baja calidad. Para abordar estas deficiencias, presentamos AetherCode, un nuevo punto de referencia que extrae problemas de competiciones de programación de primer nivel como la IOI y la ICPC, ofreciendo una cobertura más amplia y una mayor dificultad. AetherCode incorpora además conjuntos de pruebas exhaustivos y validados por expertos, construidos mediante una combinación de generación automatizada y curaduría humana, garantizando una evaluación rigurosa y confiable. Al combinar un diseño de problemas desafiantes con una evaluación robusta, AetherCode proporciona una medida más fiel de las capacidades de los LLMs y establece un nuevo estándar para futuras investigaciones en razonamiento de código.
Impulsados por los rápidos avances de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), los agentes están capacitados para combinar conocimiento intrínseco con el uso dinámico de herramientas, lo que mejora significativamente su capacidad para abordar tareas del mundo real. En línea con esta evolución, AgentScope introduce mejoras importantes en una nueva versión (1.0), con el objetivo de apoyar de manera integral las interacciones flexibles y eficientes entre agentes y entornos basadas en herramientas para la construcción de aplicaciones agentivas. Específicamente, abstraemos componentes fundamentales esenciales para aplicaciones agentivas y proporcionamos interfaces unificadas y módulos extensibles, permitiendo a los desarrolladores aprovechar fácilmente los últimos avances, como nuevos modelos y MCPs. Además, fundamentamos los comportamientos de los agentes en el paradigma ReAct y ofrecemos una infraestructura avanzada a nivel de agente basada en un diseño asíncrono sistemático, lo que enriquece tanto los patrones de interacción humano-agente como agente-agente, al mismo tiempo que mejora la eficiencia de ejecución. Sobre esta base, integramos varios agentes incorporados adaptados a escenarios prácticos específicos. AgentScope también incluye un soporte de ingeniería robusto para experiencias amigables para desarrolladores. Proporcionamos un módulo de evaluación escalable con una interfaz de estudio visual, lo que hace que el desarrollo de aplicaciones agentivas de trayectoria larga sea más manejable y fácil de rastrear. Además, AgentScope ofrece un entorno de pruebas (sandbox) en tiempo de ejecución para garantizar la ejecución segura de los agentes y facilita el despliegue rápido en entornos de producción. Con estas mejoras, AgentScope proporciona una base práctica para construir aplicaciones agentivas escalables, adaptativas y efectivas.
El diagnóstico preciso con modelos de lenguaje médico de gran escala se ve obstaculizado por brechas de conocimiento y alucinaciones. Los métodos de recuperación y aumentados con herramientas ayudan, pero su impacto está limitado por el uso débil de conocimiento externo y la escasa trazabilidad de la retroalimentación-razonamiento. Para abordar estos desafíos, presentamos Deep-DxSearch, un sistema RAG agéntico entrenado de extremo a extremo con aprendizaje por refuerzo (RL) que permite un razonamiento aumentado por recuperación trazable para el diagnóstico médico. En Deep-DxSearch, primero construimos un corpus de recuperación médica a gran escala que incluye registros de pacientes y fuentes de conocimiento médico confiables para apoyar el razonamiento consciente de la recuperación en diversos escenarios diagnósticos. Más crucialmente, enmarcamos al LLM como el agente central y al corpus de recuperación como su entorno, utilizando recompensas personalizadas en formato, recuperación, estructura de razonamiento y precisión diagnóstica, evolucionando así la política RAG agéntica a partir de datos a gran escala mediante RL. Los experimentos demuestran que nuestro marco de entrenamiento agéntico RL de extremo a extremo supera consistentemente los enfoques RAG basados en ingeniería de prompts y sin entrenamiento en múltiples centros de datos. Después del entrenamiento, Deep-DxSearch logra mejoras sustanciales en la precisión diagnóstica, superando líneas de base diagnósticas sólidas como GPT-4o, DeepSeek-R1 y otros marcos específicos para medicina tanto en diagnósticos de enfermedades comunes como raras en entornos de distribución interna y externa. Además, los estudios de ablación sobre el diseño de recompensas y los componentes del corpus de recuperación confirman su papel crítico, destacando la singularidad y efectividad de nuestro enfoque en comparación con implementaciones tradicionales. Finalmente, estudios de casos y análisis de interpretabilidad resaltan mejoras en la política diagnóstica de Deep-DxSearch, proporcionando una visión más profunda de sus ganancias de rendimiento y apoyando a los clínicos en la entrega de diagnósticos preliminares más confiables y precisos. Consulte https://github.com/MAGIC-AI4Med/Deep-DxSearch.
Los métodos recientes de edición de video logran resultados atractivos en la transferencia de estilos o la modificación de la apariencia. Sin embargo, editar el contenido estructural de escenas 3D en videos sigue siendo un desafío, particularmente al tratar con cambios significativos de perspectiva, como grandes rotaciones de cámara o zooms. Los principales desafíos incluyen generar contenido de nuevas vistas que sea consistente con el video original, preservar las regiones no editadas y traducir entradas 2D dispersas en salidas de video 3D realistas. Para abordar estos problemas, proponemos Sketch3DVE, un método de edición de video 3D basado en bocetos que permite la manipulación local detallada de videos con cambios significativos de perspectiva. Para resolver el desafío planteado por las entradas dispersas, empleamos métodos de edición de imágenes para generar resultados editados en el primer fotograma, los cuales luego se propagan a los fotogramas restantes del video. Utilizamos el boceto como una herramienta de interacción para un control preciso de la geometría, mientras que también se admiten otros métodos de edición de imágenes basados en máscaras. Para manejar los cambios de perspectiva, realizamos un análisis y manipulación detallados de la información 3D en el video. Específicamente, utilizamos un método de estereoscopía densa para estimar una nube de puntos y los parámetros de la cámara del video de entrada. Luego, proponemos un enfoque de edición de nubes de puntos que utiliza mapas de profundidad para representar la geometría 3D de los componentes recién editados, alineándolos efectivamente con la escena 3D original. Para fusionar de manera fluida el contenido recién editado con el video original mientras se preservan las características de las regiones no editadas, introducimos una estrategia de propagación de máscaras 3D y empleamos un modelo de difusión de video para producir videos editados realistas. Experimentos extensos demuestran la superioridad de Sketch3DVE en la edición de videos. Página de inicio y código: http://geometrylearning.com/Sketch3DVE/.
Recientemente, los modelos Visión-Lenguaje-Acción (VLA) han demostrado un rendimiento sólido en una variedad de tareas robóticas. Estos modelos dependen de entradas multimodales, donde las instrucciones en lenguaje natural desempeñan un papel crucial, no solo en la predicción de acciones, sino también en la interpretación robusta de la intención del usuario, incluso cuando las solicitudes son imposibles de cumplir. En este trabajo, investigamos cómo los VLA pueden reconocer, interpretar y responder a instrucciones con premisas falsas: comandos en lenguaje natural que hacen referencia a objetos o condiciones ausentes en el entorno. Proponemos Instruir-Verificar-y-Actuar (IVA), un marco unificado que (i) detecta cuándo una instrucción no puede ejecutarse debido a una premisa falsa, (ii) participa en aclaraciones o correcciones basadas en lenguaje y (iii) fundamenta alternativas plausibles en la percepción y la acción. Para ello, construimos una configuración de ajuste de instrucciones a gran escala con indicaciones estructuradas en lenguaje natural y entrenamos un modelo VLA capaz de manejar tanto solicitudes precisas como erróneas. Nuestro enfoque aprovecha un conjunto de datos semi-sintético aumentado contextualmente que contiene instrucciones positivas y con premisas falsas emparejadas, lo que permite una detección robusta y una corrección en lenguaje natural. Nuestros experimentos muestran que IVA mejora la precisión en la detección de premisas falsas en un 97.56% en comparación con los métodos base, mientras aumenta las respuestas exitosas en escenarios con premisas falsas en un 50.78%.
Multi-Head Latent Attention (MLA), introducido en DeepSeek-V2, comprime los estados clave-valor en un vector latente de bajo rango, almacenando en caché solo este vector para reducir el uso de memoria. Sin embargo, en el paralelismo de tensores (TP), las cabezas de atención se calculan en múltiples dispositivos, y cada dispositivo debe cargar la caché completa, lo que erosiona la ventaja de MLA sobre Grouped Query Attention (GQA). Proponemos Tensor-Parallel Latent Attention (TPLA): un esquema que divide tanto la representación latente como la dimensión de entrada de cada cabeza entre dispositivos, realiza la atención de manera independiente por fragmento y luego combina los resultados con un all-reduce. TPLA preserva los beneficios de una caché KV comprimida mientras aprovecha la eficiencia del TP. A diferencia de Grouped Latent Attention (GLA), cada cabeza en TPLA sigue aprovechando la representación latente completa, manteniendo una mayor capacidad de representación. TPLA es compatible de manera directa con modelos preentrenados usando MLA: admite el prefilling al estilo MLA y permite una decodificación eficiente en paralelismo de tensores sin necesidad de reentrenamiento. La aplicación de transformaciones ortogonales simples —por ejemplo, la transformada de Hadamard o PCA— antes del corte en TP mitiga aún más la interferencia entre fragmentos, resultando en una degradación mínima de la precisión. Al reducir la caché KV por dispositivo para DeepSeek-V3 y Kimi-K2, logramos aceleraciones de 1.79x y 1.93x, respectivamente, en un contexto de 32K tokens, manteniendo el rendimiento en pruebas de sentido común y LongBench. TPLA puede implementarse con FlashAttention-3, permitiendo una aceleración práctica de extremo a extremo.
El método de *3D Gaussian Splatting* (3DGS) ha demostrado una eficacia notable en la síntesis de nuevas vistas (NVS, por sus siglas en inglés). Sin embargo, presenta una desventaja significativa: lograr una representación de alta fidelidad generalmente requiere un gran número de gaussianos 3D, lo que resulta en un consumo considerable de memoria y requisitos de almacenamiento. Para abordar este desafío, proponemos el primer marco de destilación de conocimiento para 3DGS, que incluye diversos modelos maestros, como 3DGS básico, variantes con aumento de ruido y versiones regularizadas con *dropout*. Las salidas de estos modelos maestros se agregan para guiar la optimización de un modelo estudiante ligero. Para destilar la estructura geométrica oculta, proponemos una pérdida de similitud estructural para mejorar la consistencia en las distribuciones geométricas espaciales entre el modelo estudiante y el maestro. A través de evaluaciones cuantitativas y cualitativas exhaustivas en diversos conjuntos de datos, el marco propuesto, denominado *Distilled-3DGS*, simple pero efectivo y sin elementos superfluos, logra resultados prometedores tanto en calidad de representación como en eficiencia de almacenamiento en comparación con métodos de vanguardia. Página del proyecto: https://distilled3dgs.github.io. Código: https://github.com/lt-xiang/Distilled-3DGS.
Los contornos o curvas planas cerradas son comunes en muchos dominios. Por ejemplo, aparecen como límites de objetos en visión por computadora, isolíneas en meteorología y las órbitas de maquinaria rotativa. En muchos casos, al aprender a partir de datos de contornos, las rotaciones planas de la entrada darán lugar a salidas correspondientemente rotadas. Por lo tanto, es deseable que los modelos de aprendizaje profundo sean equivariantes a la rotación. Además, los contornos suelen representarse como una secuencia ordenada de puntos de borde, donde la elección del punto de partida es arbitraria. Por ello, también es deseable que los métodos de aprendizaje profundo sean equivariantes bajo desplazamientos cíclicos. Presentamos RotaTouille, un marco de aprendizaje profundo para aprender a partir de datos de contornos que logra la equivariancia tanto a la rotación como al desplazamiento cíclico mediante convolución circular de valores complejos. Además, introducimos y caracterizamos no linealidades equivariantes, capas de reducción y capas de agrupación global para obtener representaciones invariantes para tareas posteriores. Finalmente, demostramos la efectividad de RotaTouille a través de experimentos en clasificación de formas, reconstrucción y regresión de contornos.
Los LLM han demostrado un rendimiento sólido en tareas de razonamiento centradas en el ser humano. Si bien evaluaciones previas han explorado si los LLM pueden inferir intenciones o detectar engaños, a menudo pasan por alto los estilos de razonamiento individualizados que influyen en cómo las personas interpretan y actúan en contextos sociales. Los juegos de deducción social (SDG, por sus siglas en inglés) ofrecen un entorno natural para evaluar estilos de razonamiento individualizados, donde diferentes jugadores pueden adoptar estrategias de razonamiento diversas pero contextualmente válidas bajo condiciones idénticas. Para abordar esto, presentamos InMind, un marco de evaluación cognitivamente fundamentado diseñado para evaluar si los LLM pueden capturar y aplicar estilos de razonamiento personalizados en SDG. InMind enriquece los datos estructurados del juego con trazas de estrategias a nivel de ronda y reflexiones posteriores al juego, recopiladas tanto en modo Observador como en modo Participante. Este marco respalda cuatro tareas motivadas cognitivamente que evalúan conjuntamente tanto la alineación estática como la adaptación dinámica. Como estudio de caso, aplicamos InMind al juego Avalon, evaluando 11 LLM de última generación. Los LLM de propósito general, incluso GPT-4o, frecuentemente dependen de indicios léxicos, luchando por anclar las reflexiones en el desarrollo temporal del juego o adaptarse a estrategias en evolución. En contraste, LLM mejorados con razonamiento, como DeepSeek-R1, muestran signos tempranos de razonamiento sensible al estilo. Estos hallazgos revelan limitaciones clave en la capacidad actual de los LLM para el razonamiento individualizado y adaptativo, y posicionan a InMind como un paso hacia la interacción humano-IA alineada cognitivamente.
En la estimación de pose y forma humana en 3D, SMPLify sigue siendo una línea de base robusta que resuelve la cinemática inversa (IK) mediante optimización iterativa. Sin embargo, su alto costo computacional limita su practicidad. Avances recientes en diversos dominios han demostrado que reemplazar la optimización iterativa con redes neuronales basadas en datos puede lograr mejoras significativas en el tiempo de ejecución sin sacrificar precisión. Motivados por esta tendencia, proponemos Learnable SMPLify, un marco neuronal que reemplaza el proceso de ajuste iterativo en SMPLify con un modelo de regresión de una sola pasada. El diseño de nuestro marco aborda dos desafíos centrales en la IK neuronal: la construcción de datos y la generalización. Para permitir un entrenamiento efectivo, proponemos una estrategia de muestreo temporal que construye pares de inicialización-objetivo a partir de marcos secuenciales. Para mejorar la generalización en diversos movimientos y poses no vistas, proponemos un esquema de normalización centrado en el humano y aprendizaje residual para reducir el espacio de soluciones. Learnable SMPLify admite tanto inferencia secuencial como post-procesamiento plug-in para refinar estimadores basados en imágenes existentes. Experimentos extensivos demuestran que nuestro método se establece como una línea de base práctica y simple: logra un tiempo de ejecución casi 200 veces más rápido en comparación con SMPLify, generaliza bien a 3DPW y RICH no vistos, y opera de manera agnóstica al modelo cuando se utiliza como una herramienta plug-in en LucidAction. El código está disponible en https://github.com/Charrrrrlie/Learnable-SMPLify.
La capacidad de razonamiento desempeña un papel crítico y significativo en las amplias aplicaciones de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Para mejorar el rendimiento de razonamiento de los LLMs, se han propuesto diversos enfoques de ajuste fino basados en Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con el fin de abordar la limitada capacidad de generalización de los LLMs entrenados únicamente mediante Ajuste Fino Supervisado (SFT, por sus siglas en inglés). A pesar de su efectividad, dos limitaciones principales obstaculizan el avance de los LLMs. En primer lugar, los enfoques basados en RL convencionales ignoran las Cadenas de Pensamiento (CoT, por sus siglas en inglés) anotadas e incorporan un muestreo inestable de trayectorias de razonamiento, lo que generalmente resulta en colapso del modelo, un proceso de entrenamiento inestable y un rendimiento subóptimo. En segundo lugar, los enfoques de SFT existentes suelen enfatizar en exceso las CoT anotadas, lo que potencialmente conduce a una degradación del rendimiento debido a la explotación insuficiente de las CoT potenciales. En este artículo, proponemos un enfoque de Ajuste Fino Reforzado basado en Aprendizaje Contrastivo con CoT anotadas, denominado , para mejorar el rendimiento de razonamiento de los LLMs mientras se abordan las limitaciones mencionadas. Específicamente, proponemos aprender una representación para cada CoT. Basándonos en esta representación, diseñamos señales contrastivas novedosas para guiar el proceso de ajuste fino. Nuestro enfoque no solo explota completamente las CoT anotadas disponibles, sino que también estabiliza el procedimiento de ajuste fino mediante la incorporación de una señal de aprendizaje no supervisado adicional. Realizamos experimentos exhaustivos y análisis en profundidad con tres enfoques de referencia, dos modelos base y dos conjuntos de datos para demostrar las ventajas significativas de en términos de robustez, rendimiento (hasta un 10,15\%) y eficiencia (hasta un 30,62\%). El código está disponible en https://github.com/WNQzhu/CARFT.
Evaluar los ataques de jailbreak es un desafío cuando las indicaciones no son abiertamente dañinas o no logran inducir resultados perjudiciales. Lamentablemente, muchos conjuntos de datos existentes de red-teaming contienen este tipo de indicaciones inadecuadas. Para evaluar los ataques con precisión, estos conjuntos de datos deben ser evaluados y depurados en busca de contenido malicioso. Sin embargo, los métodos existentes para la detección de contenido malicioso dependen ya sea de anotación manual, que es intensiva en mano de obra, o de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), que tienen una precisión inconsistente en la identificación de tipos de contenido dañino. Para equilibrar la precisión y la eficiencia, proponemos un marco de evaluación híbrido denominado MDH (Detección de Contenido Malicioso basado en LLMs con Asistencia Humana) que combina la anotación basada en LLMs con una supervisión humana mínima, y lo aplicamos a la depuración de conjuntos de datos y la detección de respuestas jailbroken. Además, encontramos que los mensajes bien elaborados por los desarrolladores pueden aumentar significativamente el éxito del jailbreak, lo que nos lleva a proponer dos nuevas estrategias: D-Ataque, que aprovecha la simulación de contexto, y DH-CoT, que incorpora cadenas de pensamiento secuestradas. Los códigos, conjuntos de datos, juicios y resultados de detección se publicarán en el repositorio de GitHub: https://github.com/AlienZhang1996/DH-CoT.