Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Seed Diffusion Preview, un modelo de lenguaje a gran escala basado en difusión de estados discretos, que ofrece una velocidad de inferencia notablemente rápida. Gracias a la generación no secuencial y en paralelo, los modelos de difusión discreta proporcionan una aceleración significativa para mitigar la latencia inherente de la decodificación token por token, como se ha demostrado recientemente (por ejemplo, Mercury Coder, Gemini Diffusion). Seed Diffusion Preview alcanza una velocidad de inferencia de 2,146 tokens/s en GPUs H20, manteniendo un rendimiento competitivo en una variedad de benchmarks estándar de evaluación de código, significativamente más rápido que los modelos contemporáneos Mercury y Gemini Diffusion, estableciendo un nuevo estado del arte en la frontera de Pareto velocidad-calidad para modelos de código.
Presentamos Skywork UniPic, un modelo autorregresivo de 1.5 mil millones de parámetros que unifica la comprensión de imágenes, la generación de texto a imagen y la edición de imágenes dentro de una única arquitectura, eliminando la necesidad de adaptadores específicos para tareas o conectores entre módulos, y demostramos que los sistemas multimodales compactos pueden alcanzar un rendimiento de vanguardia en hardware estándar. Skywork UniPic logra una puntuación GenEval de 0.86, superando a la mayoría de los modelos unificados existentes; establece un nuevo récord en DPG-Bench para generación compleja con 85.5; obtiene 5.83 en GEditBench-EN y 3.49 en ImgEdit-Bench para edición de imágenes; y genera imágenes de 1024 x 1024 con menos de 15 GB de memoria GPU (por ejemplo, RTX 4090). (1) una estrategia de codificación desacoplada que aprovecha un codificador autorregresivo enmascarado para síntesis y un codificador SigLIP2 para comprensión, ambos alimentando un decodificador autorregresivo compartido; (2) un plan de entrenamiento progresivo y consciente de la resolución que escala desde 256 x 256 hasta 1024 x 1024 mientras descongela parámetros dinámicamente para equilibrar capacidad y estabilidad; y (3) conjuntos de datos meticulosamente curados, de escala de 100 millones, aumentados con modelos de recompensa específicos para tareas para refinar los objetivos de generación y edición. Al demostrar que la integración multimodal de alta fidelidad no necesita incurrir en demandas de recursos prohibitivas, Skywork UniPic establece un paradigma práctico para la IA multimodal de alta fidelidad y desplegable. El código y los pesos están disponibles públicamente en https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
La generación controlable de videos ultra largos es una tarea fundamental pero desafiante. Aunque los métodos existentes son efectivos para clips cortos, tienen dificultades para escalar debido a problemas como la inconsistencia temporal y la degradación visual. En este artículo, inicialmente investigamos e identificamos tres factores clave: la inicialización separada del ruido, la normalización independiente de las señales de control y las limitaciones de la guía de una sola modalidad. Para abordar estos problemas, proponemos LongVie, un marco autoregresivo de extremo a extremo para la generación controlable de videos largos. LongVie introduce dos diseños principales para garantizar la consistencia temporal: 1) una estrategia unificada de inicialización del ruido que mantiene una generación consistente entre clips, y 2) una normalización global de las señales de control que asegura la alineación en el espacio de control a lo largo de todo el video. Para mitigar la degradación visual, LongVie emplea 3) un marco de control multimodal que integra tanto señales de control densas (por ejemplo, mapas de profundidad) como dispersas (por ejemplo, puntos clave), complementado por 4) una estrategia de entrenamiento consciente de la degradación que equilibra adaptativamente las contribuciones de las modalidades a lo largo del tiempo para preservar la calidad visual. También presentamos LongVGenBench, un benchmark integral que consta de 100 videos de alta resolución que abarcan diversos entornos del mundo real y sintéticos, cada uno con una duración de más de un minuto. Experimentos extensos muestran que LongVie alcanza un rendimiento de vanguardia en controlabilidad a largo plazo, consistencia y calidad.
La verificación de respuestas es crucial no solo para evaluar los modelos de lenguaje de gran escala (LLMs) al comparar sus salidas no estructuradas con respuestas estándar, sino que también sirve como modelo de recompensa para guiar la optimización de los LLMs. La mayoría de los marcos de evaluación dependen de coincidencias regularizadas o emplean LLMs generales para la verificación de respuestas, lo que requiere una personalización extensa y repetitiva de reglas de expresiones regulares o indicaciones de evaluación. Dos limitaciones fundamentales persisten en las metodologías actuales: 1) la ausencia de puntos de referencia integrales que evalúen sistemáticamente las capacidades de verificación en diferentes LLMs; y 2) la etapa incipiente del desarrollo de verificadores, donde los enfoques existentes carecen tanto de la robustez para manejar casos extremos complejos como de la generalización en diferentes dominios. En este trabajo, desarrollamos CompassVerifier, un modelo verificador ligero, preciso y robusto para la evaluación y recompensa de resultados. Demuestra competencia en múltiples dominios que abarcan matemáticas, conocimiento y diversas tareas de razonamiento, con la capacidad de procesar varios tipos de respuestas, incluyendo subproblemas múltiples, fórmulas y secuencias de respuestas, mientras identifica eficazmente respuestas anómalas/inválidas. Introducimos el punto de referencia VerifierBench, que comprende salidas de modelos recopiladas de múltiples fuentes de datos, aumentadas mediante análisis manual de patrones de metaerrores para mejorar CompassVerifier. Anticipamos que CompassVerifier y VerifierBench facilitarán la verificación de respuestas, los protocolos de evaluación y la investigación en aprendizaje por refuerzo. El código y el conjunto de datos están disponibles en https://github.com/open-compass/CompassVerifier.
La localización de problemas, el proceso de identificar ubicaciones en el código que requieren modificaciones para resolver problemas de software, es una tarea crítica pero desafiante en el desarrollo de software. La brecha semántica entre las descripciones de problemas en lenguaje natural y el código defectuoso requiere un razonamiento complejo de múltiples pasos a través de las dependencias del código. Los agentes basados en LLM (Modelos de Lenguaje de Gran Escala) existentes intentan abordar esto integrando herramientas de recuperación de repositorios. Sin embargo, esto transforma la localización de problemas en una tarea exigente que denominamos Búsqueda Profunda en Repositorios, la cual requiere que el LLM utilice eficazmente diversas herramientas de recuperación de repositorios a lo largo de un proceso de razonamiento y navegación de múltiples pasos. Para enfrentar este desafío, presentamos ToolTrain, un marco de entrenamiento en dos etapas que combina el ajuste fino supervisado con muestreo por rechazo y el aprendizaje por refuerzo integrado con herramientas, con el objetivo de mejorar la capacidad de los LLM para utilizar herramientas de recuperación en la localización de problemas. Los resultados experimentales muestran que los modelos entrenados con ToolTrain logran un rendimiento de vanguardia, con nuestro modelo de 32B superando incluso a Claude-3.7 en la localización a nivel de función. Los resultados también muestran que una mejoría en el rendimiento de localización se traduce en un mejor desempeño en la resolución de problemas de extremo a extremo. Esto demuestra además que el entrenamiento para la localización de problemas es una estrategia viable y efectiva para mejorar el desarrollo de software automatizado.
Los transformadores han demostrado un éxito notable en visión, lenguaje y video. Sin embargo, el aumento en la complejidad de las tareas ha llevado a modelos más grandes y a un mayor número de tokens, incrementando el costo cuadrático de la autoatención y la sobrecarga en el acceso a la memoria de la GPU. Para reducir el costo computacional de la autoatención, trabajos previos han propuesto técnicas de compresión de tokens que eliminan aquellos redundantes o menos informativos. Paralelamente, se han desarrollado núcleos de atención fusionados, como FlashAttention, para aliviar la sobrecarga de memoria al evitar la construcción de mapas de atención y su correspondiente E/S hacia la HBM. Esto, sin embargo, los hace incompatibles con la mayoría de los métodos de compresión de tokens sin entrenamiento, que dependen de los mapas de atención para determinar la importancia de los tokens. Aquí, proponemos Representation Shift, una métrica sin entrenamiento y agnóstica al modelo que mide el grado de cambio en la representación de cada token. Esto integra de manera fluida la compresión de tokens con FlashAttention, sin necesidad de mapas de atención o reentrenamiento. Nuestro método se generaliza más allá de los transformadores, aplicándose también a CNNs y modelos de espacio de estados. Experimentos extensivos muestran que Representation Shift permite una compresión efectiva de tokens compatible con FlashAttention, logrando aceleraciones significativas de hasta el 5.5% y 4.4% en la recuperación de texto-video y en preguntas y respuestas sobre video, respectivamente. El código está disponible en https://github.com/mlvlab/Representation-Shift.
Los algoritmos de búsqueda de vecinos más cercanos aproximados (ANNS, por sus siglas en inglés) se han vuelto cada vez más críticos para las aplicaciones recientes de IA, particularmente en la generación aumentada por recuperación (RAG) y en aplicaciones de modelos de lenguaje basados en agentes. En este artículo, presentamos CRINN, un nuevo paradigma para los algoritmos ANNS. CRINN aborda la optimización de ANNS como un problema de aprendizaje por refuerzo, donde la velocidad de ejecución sirve como señal de recompensa. Este enfoque permite la generación automática de implementaciones de ANNS progresivamente más rápidas, manteniendo las restricciones de precisión. Nuestra evaluación experimental demuestra la efectividad de CRINN en seis conjuntos de datos de referencia ampliamente utilizados para NNS. En comparación con los algoritmos ANNS de código abierto más avanzados, CRINN logra el mejor rendimiento en tres de ellos (GIST-960-Euclidiano, MNIST-784-Euclidiano y GloVe-25-angular), y empata en el primer lugar en dos de ellos (SIFT-128-Euclidiano y GloVe-25-angular). Las implicaciones del éxito de CRINN van más allá de la optimización de ANNS: valida que los modelos de lenguaje aumentados con aprendizaje por refuerzo pueden funcionar como una herramienta efectiva para automatizar optimizaciones algorítmicas sofisticadas que requieren conocimiento especializado y refinamiento manual intensivo en mano de obra. El código se puede encontrar en https://github.com/deepreinforce-ai/CRINN.
Con el rápido desarrollo del Protocolo de Contexto de Modelo (MCP), el número de servidores MCP ha superado los 10,000. Sin embargo, los puntos de referencia existentes para MCP se limitan a configuraciones de un solo servidor con solo unas pocas herramientas, lo que dificulta la evaluación efectiva de las capacidades de los agentes en escenarios del mundo real a gran escala. Para abordar esta limitación, presentamos LiveMCPBench, el primer punto de referencia integral que comprende 95 tareas del mundo real basadas en el ecosistema MCP, diseñado para evaluar agentes de LLM a gran escala en diversos servidores. Para respaldar una canalización de evaluación escalable y reproducible en entornos MCP a gran escala, hemos creado LiveMCPTool, una colección diversa y fácilmente implementable de 70 servidores MCP y 527 herramientas. Además, introducimos LiveMCPEval, un marco de evaluación automatizada y adaptativa basado en LLM-as-a-Judge, que logra un 81% de concordancia con revisores humanos. Finalmente, proponemos el Agente Copiloto MCP, un agente de múltiples pasos que enruta herramientas para la planificación dinámica y ejecuta herramientas para la interacción con API en toda la suite LiveMCPTool. Nuestra evaluación cubre 10 modelos líderes, con el modelo de mejor rendimiento (Claude-Sonnet-4) alcanzando una tasa de éxito del 78.95%. Sin embargo, observamos una gran variación en el rendimiento entre los modelos, y varios modelos ampliamente utilizados tienen un desempeño deficiente en los entornos complejos y ricos en herramientas de LiveMCPBench. En general, LiveMCPBench ofrece el primer marco unificado para evaluar agentes de LLM en entornos MCP realistas, ricos en herramientas y dinámicos, sentando una base sólida para la investigación escalable y reproducible sobre las capacidades de los agentes. Nuestro código y datos estarán disponibles públicamente en https://icip-cas.github.io/LiveMCPBench.
Exploramos tres estrategias para mejorar el rendimiento en una amplia gama de tareas de edición de imágenes: ajuste fino supervisado (SFT), aprendizaje por refuerzo (RL) y razonamiento en cadena de pensamiento (CoT). Para estudiar todos estos componentes en un marco consistente, adoptamos un modelo multimodal autorregresivo que procesa tokens textuales y visuales de manera unificada. Encontramos que RL combinado con un verificador multimodal de gran escala basado en LLM es la estrategia más efectiva. Como resultado, presentamos EARL: Editing with Autoregression and RL, un modelo robusto de edición de imágenes basado en RL que compite favorablemente en una diversidad de ediciones frente a líneas base sólidas, a pesar de utilizar mucho menos datos de entrenamiento. Así, EARL avanza la frontera de los modelos multimodales autorregresivos en la edición de imágenes. Publicamos nuestro código, datos de entrenamiento y modelos entrenados en https://github.com/mair-lab/EARL.
Presentamos Goedel-Prover-V2, una serie de modelos de lenguaje de código abierto que establecen un nuevo estado del arte en la demostración automática de teoremas. Basado en el flujo estándar de iteración experta y aprendizaje por refuerzo, nuestro enfoque incorpora tres innovaciones clave: (1) Síntesis de datos escalonada: Generamos tareas sintéticas de dificultad creciente para entrenar al modelo en el dominio de teoremas cada vez más complejos; (2) Autocorrección guiada por verificador: Permitimos que el modelo revise iterativamente sus demostraciones aprovechando la retroalimentación del compilador Lean; (3) Promediado de modelos: Fusionamos puntos de control del modelo para mitigar la disminución en la diversidad de salidas en etapas avanzadas del entrenamiento. Nuestro modelo pequeño, Goedel-Prover-V2-8B, alcanza un 84.6% en pass@32 en MiniF2F y supera a DeepSeek-Prover-V2-671B bajo la misma métrica, a pesar de ser 80 veces más pequeño. Nuestro modelo principal, Goedel-Prover-V2-32B, logra un 88.1% en MiniF2F en pass@32 en modo estándar y un 90.4% en modo de autocorrección, superando ampliamente el SOTA anterior. Además, nuestro modelo principal resuelve 86 problemas en PutnamBench en pass@184, asegurando el primer lugar entre los modelos de código abierto en el ranking, superando el récord de DeepSeek-Prover-V2-671B de resolver 47 problemas en pass@1024, con un tamaño de modelo y presupuesto computacional significativamente menores. En el momento de su lanzamiento (julio-agosto de 2025), Goedel-Prover-V2 logra el mejor rendimiento general entre todos los demostradores de teoremas de código abierto. También se encuentra entre los modelos de mayor rendimiento—incluyendo sistemas de código cerrado con rendimiento reportado públicamente—bajo un presupuesto computacional limitado en tiempo de prueba. Nuestros modelos, código y datos están disponibles en https://github.com/Goedel-LM/Goedel-Prover-V2.
Los estudios existentes sobre la generación de videos de personas hablando se han centrado predominantemente en monólogos de una sola persona o en animaciones faciales aisladas, lo que limita su aplicabilidad a interacciones realistas entre múltiples personas. Para cerrar esta brecha, presentamos MIT, un conjunto de datos a gran escala diseñado específicamente para la generación de videos de múltiples personas hablando. Con este fin, desarrollamos una pipeline automática que recopila y anota videos de conversaciones entre varias personas. El conjunto de datos resultante comprende 12 horas de grabaciones en alta resolución, cada una con dos a cuatro hablantes, y anotaciones detalladas de las posturas corporales y las interacciones del habla. Captura la dinámica natural de las conversaciones en escenarios con múltiples hablantes, ofreciendo un recurso valioso para estudiar comportamientos visuales interactivos. Para demostrar el potencial de MIT, proponemos además CovOG, un modelo de referencia para esta nueva tarea. Este modelo integra un Codificador de Posturas Multi-Humanas (MPE) para manejar un número variable de hablantes mediante la agregación de representaciones individuales de posturas, y un Controlador de Audio Interactivo (IAD) para modular la dinámica de la cabeza basándose en características de audio específicas de cada hablante. Juntos, estos componentes muestran la viabilidad y los desafíos de generar videos realistas de múltiples personas hablando, estableciendo a MIT como un punto de referencia valioso para futuras investigaciones. El código está disponible en: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
En la síntesis controlada de imágenes, generar imágenes coherentes y consistentes a partir de múltiples referencias con conciencia del diseño espacial sigue siendo un desafío abierto. Presentamos LAMIC, un marco de Composición Multi-Imagen Consciente del Diseño que, por primera vez, extiende los modelos de difusión de referencia única a escenarios de múltiples referencias de manera libre de entrenamiento. Basado en el modelo MMDiT, LAMIC introduce dos mecanismos de atención plug-and-play: 1) Atención de Aislamiento de Grupo (GIA) para mejorar la separación de entidades; y 2) Atención Modulada por Región (RMA) para permitir la generación consciente del diseño. Para evaluar de manera integral las capacidades del modelo, además introducimos tres métricas: 1) Relación de Inclusión (IN-R) y Relación de Relleno (FI-R) para evaluar el control del diseño; y 2) Similitud de Fondo (BG-S) para medir la consistencia del fondo. Experimentos extensos muestran que LAMIC logra un rendimiento de vanguardia en la mayoría de las métricas principales: supera consistentemente a las líneas base existentes de múltiples referencias en ID-S, BG-S, IN-R y puntajes AVG en todos los escenarios, y alcanza el mejor DPG en tareas de composición compleja. Estos resultados demuestran las habilidades superiores de LAMIC en la preservación de identidad, conservación del fondo, control del diseño y seguimiento de indicaciones, todo logrado sin ningún entrenamiento o ajuste fino, mostrando una fuerte capacidad de generalización zero-shot. Al heredar las fortalezas de los modelos avanzados de referencia única y permitir una extensión sin problemas a escenarios de múltiples imágenes, LAMIC establece un nuevo paradigma libre de entrenamiento para la composición controlada de múltiples imágenes. A medida que los modelos base continúan evolucionando, se espera que el rendimiento de LAMIC escale en consecuencia. Nuestra implementación está disponible en: https://github.com/Suchenl/LAMIC.
Generar descripciones precisas, informativas y libres de alucinaciones para gráficos sigue siendo un desafío para los modelos de lenguaje visual, principalmente debido a la falta de conjuntos de datos a gran escala y de alta calidad de gráficos del mundo real. Sin embargo, los conjuntos de datos existentes de gráficos del mundo real adolecen de la inclusión de información irrelevante que no puede inferirse del gráfico y de la incapacidad para capturar suficientemente los elementos estructurales y las ideas clave. Por ello, presentamos ChartCap, un conjunto de datos a gran escala de 565K imágenes de gráficos del mundo real, emparejadas con descripciones densas específicas del tipo que excluyen información irrelevante y destacan tanto los elementos estructurales como las ideas clave en detalle. Para construir ChartCap, diseñamos un proceso de cuatro etapas que genera descripciones utilizando únicamente los datos discernibles del gráfico y empleamos una verificación humana basada en consistencia cíclica, lo que acelera el control de calidad sin sacrificar la precisión. Además, proponemos una nueva métrica, el Puntaje de Consistencia Visual, que evalúa la calidad de las descripciones midiendo la similitud entre el gráfico regenerado a partir de una descripción y el gráfico original, independientemente de las descripciones de referencia. Experimentos exhaustivos confirman que los modelos ajustados en ChartCap generan consistentemente descripciones más precisas e informativas con menos alucinaciones, superando tanto a los modelos de código abierto como a los propietarios, e incluso a las descripciones anotadas por humanos.
Los avances recientes en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han permitido una base perceptiva más rica para la generación de políticas de código en agentes corporizados. Sin embargo, la mayoría de los sistemas existentes carecen de mecanismos efectivos para monitorear de manera adaptativa la ejecución de políticas y reparar códigos durante la realización de tareas. En este trabajo, presentamos HyCodePolicy, un marco de control basado en lenguaje híbrido que integra sistemáticamente la síntesis de código, la base geométrica, el monitoreo perceptivo y la reparación iterativa en un ciclo de programación en bucle cerrado para agentes corporizados. Técnicamente, dada una instrucción en lenguaje natural, nuestro sistema primero la descompone en subobjetivos y genera un programa ejecutable inicial basado en primitivas geométricas centradas en objetos. Luego, el programa se ejecuta en simulación, mientras un modelo de visión-lenguaje (VLM, por sus siglas en inglés) observa puntos de control seleccionados para detectar y localizar fallos de ejecución e inferir sus causas. Al fusionar trazas de ejecución estructuradas que capturan eventos a nivel de programa con retroalimentación perceptiva basada en VLM, HyCodePolicy infiere las causas de los fallos y repara los programas. Este mecanismo híbrido de doble retroalimentación permite la síntesis de programas autocorrectivos con una supervisión humana mínima. Nuestros resultados demuestran que HyCodePolicy mejora significativamente la robustez y la eficiencia de muestreo de las políticas de manipulación robótica, ofreciendo una estrategia escalable para integrar el razonamiento multimodal en los procesos de toma de decisiones autónomas.
Los mercados en línea se transformarán gracias a agentes de IA autónomos que actúen en nombre de los consumidores. En lugar de que los humanos naveguen y hagan clic, los agentes basados en modelos de visión y lenguaje (VLM, por sus siglas en inglés) pueden analizar páginas web, evaluar productos y realizar transacciones. Esto plantea una pregunta fundamental: ¿qué compran los agentes de IA y por qué? Desarrollamos ACES, un entorno de pruebas que combina un agente VLM independiente de la plataforma con un mercado simulado completamente programable para estudiar esta cuestión. Primero realizamos verificaciones básicas de racionalidad en el contexto de tareas simples y, luego, al aleatorizar las posiciones de los productos, precios, calificaciones, reseñas, etiquetas patrocinadas y avales de la plataforma, obtenemos estimaciones causales de cómo los VLMs de vanguardia realmente compran. Los modelos muestran efectos de posición fuertes pero heterogéneos: todos favorecen la fila superior, pero diferentes modelos prefieren distintas columnas, lo que socava la suposición de un rango "superior" universal. Penalizan las etiquetas patrocinadas y premian los avales. Las sensibilidades al precio, las calificaciones y las reseñas son direccionalmente similares a las humanas, pero varían drásticamente en magnitud entre modelos. Motivados por escenarios en los que los vendedores utilizan agentes de IA para optimizar las listas de productos, demostramos que un agente del lado del vendedor que realiza ajustes menores en las descripciones de los productos, apuntando a las preferencias de los compradores de IA, puede generar ganancias sustanciales en la cuota de mercado si las compras mediadas por IA dominan. También encontramos que las elecciones modales de productos pueden variar entre modelos y, en algunos casos, la demanda puede concentrarse en unos pocos productos seleccionados, lo que plantea preguntas sobre la competencia. En conjunto, nuestros resultados iluminan cómo pueden comportarse los agentes de IA en entornos de comercio electrónico y destacan cuestiones concretas sobre estrategias de vendedores, diseño de plataformas y regulación en un ecosistema mediado por IA.
La generación y predicción de movimiento humano egocéntrico con contexto escénico es crucial para mejorar las experiencias de realidad aumentada/virtual, optimizar la interacción humano-robot, avanzar en tecnologías asistenciales y habilitar soluciones de salud adaptativas mediante la predicción y simulación precisa del movimiento desde una perspectiva en primera persona. Sin embargo, los métodos existentes se centran principalmente en la síntesis de movimiento en tercera persona con contextos escénicos 3D estructurados, lo que limita su eficacia en entornos egocéntricos del mundo real, donde el campo de visión reducido, las oclusiones frecuentes y las cámaras dinámicas dificultan la percepción de la escena. Para cerrar esta brecha, presentamos Generación de Movimiento Egocéntrico y Predicción de Movimiento Egocéntrico, dos tareas novedosas que utilizan imágenes en primera persona para la síntesis de movimiento consciente del entorno sin depender de escenas 3D explícitas. Proponemos UniEgoMotion, un modelo unificado de difusión condicional de movimiento con una representación de movimiento centrada en la cabeza diseñada específicamente para dispositivos egocéntricos. El diseño simple pero efectivo de UniEgoMotion permite la reconstrucción, predicción y generación de movimiento egocéntrico a partir de entradas visuales en primera persona dentro de un marco unificado. A diferencia de trabajos anteriores que pasan por alto la semántica de la escena, nuestro modelo extrae eficazmente el contexto escénico basado en imágenes para inferir movimiento 3D plausible. Para facilitar el entrenamiento, presentamos EE4D-Motion, un conjunto de datos a gran escala derivado de EgoExo4D, aumentado con anotaciones de movimiento 3D pseudo-ground-truth. UniEgoMotion logra un rendimiento de vanguardia en la reconstrucción de movimiento egocéntrico y es el primero en generar movimiento a partir de una sola imagen egocéntrica. Evaluaciones exhaustivas demuestran la efectividad de nuestro marco unificado, estableciendo un nuevo estándar en el modelado de movimiento egocéntrico y abriendo nuevas posibilidades para aplicaciones egocéntricas.
La Recuperación Texto-Video tiene como objetivo encontrar el candidato de texto (o video) más relevante dado una consulta de video (o texto) en bases de datos en línea a gran escala. Trabajos recientes aprovechan modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para mejorar la recuperación, especialmente en pares de consulta-candidato largos o complejos. Sin embargo, observamos que la aplicación ingenua de los MLLMs, es decir, la recuperación basada en la probabilidad del candidato, introduce un sesgo de prioridad del candidato, favoreciendo a aquellos con prioridades inherentemente más altas sobre los más relevantes para la consulta. Con este fin, proponemos un nuevo marco de recuperación, Estimación de Probabilidad Bidireccional con MLLM (BLiM), que aprovecha tanto las probabilidades de la consulta como del candidato al entrenar el modelo para generar texto a partir de un video dado, así como características de video a partir de un texto dado. Además, introducimos la Normalización de Prioridad del Candidato (CPN, por sus siglas en inglés), un módulo de calibración de puntuación simple pero efectivo que no requiere entrenamiento, diseñado para mitigar el sesgo de prioridad del candidato en la probabilidad del candidato. En cuatro benchmarks de Recuperación Texto-Video, nuestro BLiM equipado con CPN supera a los modelos anteriores de última generación en un promedio de 6.4 R@1, aliviando efectivamente el sesgo de prioridad del candidato y enfatizando la relevancia consulta-candidato. Nuestro análisis en profundidad en varias tareas multimodales más allá de la recuperación destaca la amplia aplicabilidad de CPN, que mejora la comprensión visual al reducir la dependencia de las prioridades textuales. El código está disponible en https://github.com/mlvlab/BLiM.
Los modelos de lenguaje de gran contexto (LLMs, por sus siglas en inglés), como Gemini-2.5-Pro y Claude-Sonnet-4, se utilizan cada vez más para potenciar sistemas de IA avanzados, incluyendo pipelines de generación aumentada por recuperación (RAG) y agentes autónomos. En estos sistemas, un LLM recibe una instrucción junto con un contexto—que a menudo consiste en textos recuperados de una base de conocimiento o memoria—y genera una respuesta que está contextualmente fundamentada siguiendo la instrucción. Estudios recientes han diseñado soluciones para rastrear un subconjunto de textos en el contexto que contribuyen más a la respuesta generada por el LLM. Estas soluciones tienen numerosas aplicaciones en el mundo real, incluyendo la realización de análisis forenses post-ataque y la mejora de la interpretabilidad y confiabilidad de las salidas de los LLM. Aunque se han realizado esfuerzos significativos, las soluciones de vanguardia, como TracLLM, a menudo conllevan un alto costo computacional; por ejemplo, TracLLM tarda cientos de segundos en realizar el rastreo para un solo par respuesta-contexto. En este trabajo, proponemos AttnTrace, un nuevo método de rastreo de contexto basado en los pesos de atención producidos por un LLM para un prompt. Para utilizar eficazmente los pesos de atención, introducimos dos técnicas diseñadas para mejorar la efectividad de AttnTrace y proporcionamos insights teóricos para nuestra elección de diseño. También realizamos una evaluación sistemática de AttnTrace. Los resultados demuestran que AttnTrace es más preciso y eficiente que los métodos de rastreo de contexto de vanguardia existentes. También mostramos que AttnTrace puede mejorar los métodos de vanguardia en la detección de inyección de prompts en contextos largos a través del paradigma de atribución antes de la detección. Como aplicación en el mundo real, demostramos que AttnTrace puede identificar eficazmente instrucciones inyectadas en un artículo diseñado para manipular reseñas generadas por LLM. El código está disponible en https://github.com/Wang-Yanting/AttnTrace.
La adaptación de bajo rango (LoRA) se ha convertido en una herramienta estándar para el ajuste fino eficiente de modelos de lenguaje grandes (LLMs). Sin embargo, incluso actualizaciones menores de LoRA pueden inducir una deriva de alineación, debilitando las restricciones de seguridad y comportamiento a través de cambios entrelazados en los parámetros. Para abordar esto, proponemos AlignGuard-LoRA (AGL), un marco fundamentado para preservar la alineación durante el ajuste fino. AGL introduce varios componentes clave: una pérdida de tarea principal para supervisión, regularización basada en la Matriz de Información de Fisher para restringir actualizaciones en subespacios sensibles a la alineación, y regularización específica de la tarea para estabilizar la integración de nuevo conocimiento. Además, introducimos regularización consciente de colisiones, combinando superposición riemanniana -- que penaliza la interferencia coordenada por coordenada -- y separación geodésica -- que fomenta una geometría de actualización disjunta. Curatoriamos DriftCaps, un punto de referencia diagnóstico específico de indicaciones seguras e inseguras diseñado para cuantificar la deriva de alineación y la degradación de la seguridad. Las evaluaciones empíricas muestran que AGL mitiga la deriva de alineación hasta en un 50% en puntos de referencia críticos para la seguridad sin degradar el rendimiento en tareas posteriores. Una ablación exhaustiva confirma que cada componente contribuye de manera distintiva a preservar los comportamientos de seguridad latentes. Finalmente, derivamos y validamos una ley de escalamiento para el olvido catastrófico, revelando que AGL aplana la escalada de pérdida post-ajuste fino mientras preserva la dinámica de adaptación. AGL es un refinamiento estructuralmente fundamentado de LoRA, asegurando la preservación de la alineación con compensaciones mínimas. Para fomentar una mayor exploración y desarrollo, liberamos nuestra implementación como código abierto.
La finalización de código a nivel de token es una de las características más críticas en los Entornos de Desarrollo Integrados (IDEs) modernos. Asiste a los desarrolladores sugiriendo identificadores y APIs relevantes durante la codificación. Aunque las sugerencias suelen derivarse de análisis estáticos, su utilidad depende en gran medida de cómo se clasifican, ya que las predicciones correctas enterradas en lo profundo de la lista rara vez son vistas por los usuarios. La mayoría de los sistemas actuales dependen de heurísticas diseñadas manualmente o modelos de aprendizaje automático livianos entrenados con registros de usuarios, los cuales pueden mejorarse aún más para capturar información contextual y generalizar entre proyectos y estilos de codificación. En este trabajo, proponemos un nuevo enfoque de puntuación para clasificar las sugerencias estáticas utilizando modelos de lenguaje de manera liviana y agnóstica al modelo. Nuestro método organiza todas las sugerencias válidas en un árbol de prefijos y realiza un único paso de decodificación codicioso para recopilar puntuaciones a nivel de token a lo largo del árbol. Esto permite una clasificación precisa y consciente de los tokens sin necesidad de búsqueda por haz, ingeniería de prompts o adaptaciones del modelo. El enfoque es rápido, agnóstico a la arquitectura y compatible con modelos ya implementados para la finalización de código. Estos hallazgos destacan una vía práctica y efectiva para integrar modelos de lenguaje en herramientas ya existentes dentro de los IDEs, y en última instancia, proporcionar una asistencia más inteligente y receptiva para los desarrolladores.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ajustados para alinearse con los valores humanos a menudo exhiben desviación en la alineación, produciendo respuestas inseguras o que violan políticas cuando se exponen a indicaciones adversas, perturbaciones en la decodificación o variaciones de jailbreaks parafraseados. Si bien trabajos previos han caracterizado conductualmente los fallos de alineación, se sabe poco sobre las fuentes de creencias durante el entrenamiento que subyacen a estos fallos. Presentamos TraceAlign, un marco unificado para rastrear respuestas inseguras hasta sus causas raíz en el corpus de entrenamiento del modelo. Central a nuestro enfoque es el Índice de Conflicto de Creencias (BCI, por sus siglas en inglés), que cuantifica la inconsistencia semántica entre los segmentos generados y las políticas alineadas, basándose en documentos de entrenamiento recuperados mediante coincidencia de arreglos de sufijos. Proponemos tres intervenciones complementarias: (i) TraceShield, un filtro de seguridad en tiempo de inferencia que rechaza respuestas con segmentos de alto BCI, (ii) Pérdida de Desconflicto de Creencias Contrastiva, un objetivo de ajuste fino contrastivo que penaliza continuaciones de alto BCI durante el DPO, y (iii) Prov-Decode, una estrategia de decodificación consciente de la procedencia que veta expansiones de haz predichas para producir segmentos de alto BCI. Juntas, estas defensas reducen la desviación en la alineación hasta en un 85% en nuestro Punto de Referencia de Desviación de Alineación (ADB, por sus siglas en inglés) mientras preservan la utilidad en tareas estándar, con un delta menor a 0.2 y una calidad de rechazo mejorada. Además, derivamos un límite superior teórico sobre la probabilidad de desviación mediante estadísticas de segmentos de arreglos de sufijos, vinculando la frecuencia y longitud de memorización con el riesgo de reactivación adversaria. TraceAlign proporciona así el primer kit de herramientas escalable, rastreable y fundamentado para comprender y mitigar los fallos de alineación en su origen. Para fomentar una mayor exploración y desarrollo, hemos hecho público nuestro código en: https://anonymous.4open.science/r/tracealign-2DA7.