Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje a Gran Escala (LLMs) son asignados cada vez más a tareas de generación creativa, incluyendo la simulación de personajes ficticios. Sin embargo, su capacidad para representar personajes antagónicos y no prosociales permanece en gran medida sin examinar. Nuestra hipótesis es que la alineación de seguridad de los LLMs modernos crea un conflicto fundamental con la tarea de representar auténticamente personajes moralmente ambiguos o villanos. Para investigar esto, presentamos el benchmark Moral RolePlay, un nuevo conjunto de datos que presenta una escala de alineación moral de cuatro niveles y un conjunto de prueba equilibrado para una evaluación rigurosa. Asignamos a LLMs de vanguardia la tarea de representar personajes que van desde paradigmas morales hasta villanos puros. Nuestra evaluación a gran escala revela un declive consistente y monótono en la fidelidad de la representación a medida que disminuye la moralidad del personaje. Encontramos que los modelos tienen más dificultades con rasgos directamente antitéticos a los principios de seguridad, como "Engañoso" y "Manipulador", sustituyendo a menudo la malevolencia matizada con agresión superficial. Además, demostramos que la competencia general de un chatbot es un predictor deficiente de su capacidad para representar villanos, y que los modelos altamente alineados con la seguridad obtienen resultados particularmente pobres. Nuestro trabajo proporciona la primera evidencia sistemática de esta limitación crítica, destacando una tensión clave entre la seguridad del modelo y la fidelidad creativa. Nuestro benchmark y hallazgos allanan el camino para desarrollar métodos de alineación más matizados y conscientes del contexto.
La captura de relaciones espaciales a partir de entradas visuales es un pilar fundamental de la inteligencia general similar a la humana. Varios estudios anteriores han intentado mejorar la conciencia espacial de los Modelos de Visión y Lenguaje (VLM) añadiendo codificadores expertos adicionales, lo que genera sobrecarga computacional y generalmente perjudica las capacidades generales. Para mejorar la habilidad espacial en arquitecturas generales, presentamos Sintonización Visual Espacial (VST), un marco integral para dotar a los VLM de capacidades visoespaciales similares a las humanas, desde la percepción hasta el razonamiento espacial. Primero intentamos mejorar la percepción espacial en los VLM construyendo un conjunto de datos a gran escala denominado VST-P, que comprende 4.1 millones de muestras abarcando 19 habilidades a través de vistas únicas, imágenes múltiples y videos. Luego, presentamos VST-R, un conjunto de datos curado con 135K muestras que instruyen a los modelos para razonar en el espacio. En particular, adoptamos un pipeline de entrenamiento progresivo: ajuste fino supervisado para construir conocimiento espacial fundamental, seguido de aprendizaje por refuerzo para mejorar aún más las habilidades de razonamiento espacial. Sin efectos secundarios en las capacidades generales, el VST propuesto logra consistentemente resultados de vanguardia en varios benchmarks espaciales, incluyendo 34.8% en MMSI-Bench y 61.2% en VSIBench. Se demuestra que los Modelos de Visión-Lenguaje-Acción pueden mejorarse significativamente con el paradigma de sintonización espacial propuesto, allanando el camino para una IA más fundamentada físicamente.
Los modelos multimodales agentivos no solo deben comprender texto e imágenes, sino también invocar activamente herramientas externas, como entornos de ejecución de código y búsqueda web, e integrar estas operaciones en el razonamiento. En este trabajo, presentamos DeepEyesV2 y exploramos cómo construir un modelo multimodal agentivo desde las perspectivas de construcción de datos, métodos de entrenamiento y evaluación de modelos. Observamos que el aprendizaje por refuerzo directo por sí solo no logra inducir un comportamiento robusto de uso de herramientas. Este fenómeno motiva un pipeline de entrenamiento en dos etapas: una etapa de arranque en frío para establecer patrones de uso de herramientas, y una etapa de aprendizaje por refuerzo para refinar aún más la invocación de herramientas. Curationamos un conjunto de datos de entrenamiento diverso y moderadamente desafiante, incluyendo específicamente ejemplos donde el uso de herramientas es beneficioso. Además, presentamos RealX-Bench, un benchmark integral diseñado para evaluar el razonamiento multimodal en escenarios reales, que inherentemente requiere la integración de múltiples capacidades, incluyendo percepción, búsqueda y razonamiento. Evaluamos DeepEyesV2 en RealX-Bench y otros benchmarks representativos, demostrando su eficacia en tareas de comprensión del mundo real, razonamiento matemático y tareas intensivas en búsqueda. Además, DeepEyesV2 exhibe una invocación de herramientas adaptativa a la tarea, tendiendo a usar operaciones de imagen para tareas de percepción y cálculos numéricos para tareas de razonamiento. El aprendizaje por refuerzo permite además combinaciones complejas de herramientas y le permite al modelo invocar herramientas selectivamente según el contexto. Esperamos que nuestro estudio pueda proporcionar orientación a la comunidad en el desarrollo de modelos multimodales agentivos.
Los LLM pueden realizar razonamientos de múltiples pasos mediante Cadenas de Pensamiento (CoT), pero no pueden verificar su propia lógica de manera confiable. Incluso cuando llegan a respuestas correctas, el razonamiento subyacente puede ser defectuoso, lo que socava la confianza en escenarios de alto riesgo. Para mitigar este problema, presentamos VeriCoT, un método neuro-simbólico que extrae y verifica argumentos lógicos formales a partir del razonamiento CoT. VeriCoT formaliza cada paso del razonamiento CoT en lógica de primer orden e identifica premisas que fundamentan el argumento en el contexto fuente, el conocimiento de sentido común o pasos de razonamiento previos. La representación simbólica permite a los solucionadores automatizados verificar la validez lógica, mientras que las premisas en lenguaje natural permiten a humanos y sistemas identificar pasos de razonamiento infundados o falaces. Los experimentos en los conjuntos de datos ProofWriter, LegalBench y BioASQ demuestran que VeriCoT identifica efectivamente razonamientos defectuosos y sirve como un fuerte predictor de la corrección de la respuesta final. También aprovechamos la señal de verificación de VeriCoT para (1) la autorreflexión en tiempo de inferencia, (2) el ajuste fino supervisado (SFT) en conjuntos de datos destilados por VeriCoT y (3) el ajuste fino por preferencias (PFT) con optimización directa de preferencias (DPO) utilizando recompensas pareadas basadas en verificación, mejorando aún más la validez y precisión del razonamiento.
Los agentes en el mundo real deben realizar juicios no solo lógicos, sino también oportunos. Esto requiere una conciencia continua del entorno dinámico: surgen peligros, aparecen oportunidades y otros agentes actúan, mientras que el razonamiento del agente aún se está desarrollando. A pesar de los avances en el razonamiento de modelos de lenguaje, los enfoques existentes no logran capturar esta naturaleza dinámica. Introducimos el razonamiento en tiempo real como una nueva formulación de problemas para agentes en entornos en evolución y construimos el Gimnasio de Razonamiento en Tiempo Real para demostrarlo. Estudiamos dos paradigmas para implementar modelos de lenguaje en agentes: (1) agentes reactivos, que emplean modelos de lenguaje con cómputo de razonamiento acotado para respuestas rápidas, y (2) agentes planificadores, que permiten un cómputo de razonamiento extendido para problemas complejos. Nuestros experimentos muestran que incluso los modelos más avanzados tienen dificultades para realizar juicios lógicos y oportunos en cualquiera de los paradigmas. Para abordar esta limitación, proponemos AgileThinker, que emplea simultáneamente ambos paradigmas de razonamiento. AgileThinker supera consistentemente a los agentes que utilizan solo un paradigma de razonamiento a medida que aumentan la dificultad de la tarea y la presión de tiempo, equilibrando efectivamente la profundidad del razonamiento y la latencia de respuesta. Nuestro trabajo establece el razonamiento en tiempo real como un banco de pruebas crítico para desarrollar agentes prácticos y proporciona una base para la investigación en sistemas de IA con restricciones temporales, destacando un camino hacia agentes capaces de operar en tiempo real.
Los avances recientes en la integración del lenguaje y el movimiento humano 3D se han centrado principalmente en la generación de texto a movimiento, dejando la tarea de comprensión del movimiento relativamente inexplorada. Presentamos Dense Motion Captioning, una nueva tarea que pretende localizar temporalmente y describir acciones dentro de secuencias de movimiento humano 3D. Los conjuntos de datos actuales adolecen de anotaciones temporales detalladas y consisten predominantemente en secuencias cortas con pocas acciones. Para superar estas limitaciones, presentamos el Complex Motion Dataset (CompMo), el primer conjunto de datos a gran escala que presenta secuencias de movimiento complejas, ricamente anotadas, con límites temporales precisos. Construido mediante un pipeline de generación de datos cuidadosamente diseñado, CompMo incluye 60,000 secuencias de movimiento, cada una compuesta por múltiples acciones que van desde al menos dos hasta diez, anotadas con precisión con sus extensiones temporales. Además, presentamos DEMO, un modelo que integra un modelo de lenguaje grande con un adaptador de movimiento simple, entrenado para generar descripciones densas y temporalmente fundamentadas. Nuestros experimentos muestran que DEMO supera sustancialmente a los métodos existentes tanto en CompMo como en benchmarks adaptados, estableciendo una base sólida para futuras investigaciones en comprensión y descripción de movimiento 3D.
En este trabajo, identificamos un sesgo inherente en las arquitecturas predominantes de LVLM hacia la modalidad lingüística, resultado en gran medida de la práctica común de simplemente anexar incrustaciones visuales a la secuencia de texto de entrada. Para abordar este problema, proponemos un método simple pero efectivo que refina las incrustaciones textuales mediante la integración de características visuales promediadas por _pooling_. Nuestro enfoque mejora notablemente la fundamentación visual y reduce significativamente las alucinaciones en benchmarks establecidos. Si bien el _average pooling_ ofrece un medio directo, robusto y eficiente de incorporar información visual, consideramos que métodos de fusión más sofisticados podrían mejorar aún más la fundamentación visual y la alineación multimodal. Dado que el enfoque principal de este trabajo es destacar el desequilibrio de modalidades y su impacto en las alucinaciones —y demostrar que refinar las incrustaciones textuales con información visual mitiga este problema—, dejamos la exploración de estrategias de fusión avanzadas para trabajos futuros.
La calibración precisa de la confianza en los Modelos de Lenguaje a Gran Escala (LLMs) es crucial para su uso seguro en dominios de alto riesgo, donde una confianza verbalizada clara mejora la confianza del usuario. Los métodos tradicionales que imitan expresiones de confianza de referencia a menudo no capturan el razonamiento necesario para una evaluación precisa de la confianza. Proponemos las críticas en lenguaje natural como solución, idealmente adecuadas para la calibración de confianza, ya que las etiquetas de confianza oro precisas son difíciles de obtener y a menudo requieren múltiples generaciones. Este artículo estudia cómo las críticas en lenguaje natural pueden mejorar la confianza verbalizada, abordando: (1) Qué criticar: ¿incertidumbre (centrada en la pregunta) o confianza (específica de la respuesta)? El análisis muestra que la confianza se adapta a tareas de opción múltiple, mientras que la incertidumbre sobresale en escenarios de respuesta abierta. (2) Cómo criticar: ¿autocrítica o entrenamiento de calibración mediante crítica? Proponemos la Autocrítica, que permite a los LLMs criticar y optimizar su confianza más allá de la mera precisión, y CritiCal, un novedoso método de entrenamiento de Calibración por Crítica que aprovecha las críticas en lenguaje natural para mejorar la calibración de confianza, avanzando más allá de la optimización numérica directa. Los experimentos muestran que CritiCal supera significativamente a la Autocrítica y a otros baselines competitivos, incluso superando a su modelo maestro, GPT-4o, en tareas de razonamiento complejo. CritiCal también muestra una generalización robusta en entornos fuera de distribución, avanzando en la fiabilidad de los LLMs.
Los recientes avances en los modelos de lenguaje (ML) de contexto largo han permitido entradas de millones de tokens, expandiendo sus capacidades en tareas complejas como los agentes de uso informático. Sin embargo, las implicaciones de seguridad de estos contextos extendidos siguen sin estar claras. Para cerrar esta brecha, presentamos NINJA (acrónimo de *Needle-in-haystack jailbreak attack*), un método que vulnera la alineación de los ML añadiendo contenido benigno, generado por el modelo, a los objetivos dañinos del usuario. Es crucial en nuestro método la observación de que la posición de los objetivos dañinos juega un papel importante en la seguridad. Los experimentos en el benchmark de seguridad estándar, HarmBench, muestran que NINJA incrementa significativamente las tasas de éxito de los ataques en los modelos propietarios y de código abierto más avanzados, incluyendo LLaMA, Qwen, Mistral y Gemini. A diferencia de métodos de vulneración anteriores, nuestro enfoque requiere pocos recursos, es transferible y menos detectable. Además, demostramos que NINJA es óptimo en cómputo: con un presupuesto de cómputo fijo, aumentar la longitud del contexto puede superar el aumento del número de intentos en la vulneración de tipo *best-of-N*. Estos hallazgos revelan que incluso los contextos largos benignos —cuando se elaboran con un posicionamiento cuidadoso de los objetivos— introducen vulnerabilidades fundamentales en los ML modernos.
La reparación automática de programas (APR) ha girado recientemente hacia modelos de lenguaje grande y sistemas basados en agentes, aunque la mayoría de estos sistemas dependen del contexto local de instantáneas, pasando por alto el historial del repositorio. Trabajos previos demuestran que el historial del repositorio ayuda a reparar errores de una sola línea, ya que el último commit que modificó la línea con el error suele ser el que lo introdujo. En este artículo, investigamos si el historial del repositorio también puede mejorar los sistemas de APR basados en agentes a gran escala, especialmente para errores complejos de múltiples fragmentos (multi-hunk). Presentamos HAFixAgent, un Agente de Reparación de Errores Consciente del Historial que inyecta heurísticas del repositorio derivadas de 'blame' en su bucle de reparación. Un estudio preliminar de los 854 errores del mundo real de Defects4J motiva nuestro diseño, mostrando que el historial relevante para los errores está ampliamente disponible y altamente concentrado. La comparación empírica de HAFixAgent con dos líneas de base state-of-the-art muestra: (1) Efectividad: HAFixAgent mejora significativamente respecto a la línea base basada en agentes (en un 212.3%) y respecto a la línea base para múltiples fragmentos (en un 29.9%). (2) Eficiencia: el historial no aumenta significativamente los pasos del agente y mantiene costos de tokens comparables, con costos medianos notablemente más bajos para errores complejos de múltiples archivos y múltiples fragmentos. (3) Practicidad: la combinación de diferentes heurísticas históricas repara más errores, ofreciendo una compensación clara entre coste y beneficio. HAFixAgent ofrece una receta práctica para un APR agentivo consciente del historial: fundamentar el agente en el historial de control de versiones, priorizar el contexto histórico basado en diferencias (diff) e integrar heurísticas complementarias cuando sea necesario.