Artículos de investigación en IA seleccionados diariamente con traducciones
¿El escalamiento continuo de los modelos de lenguaje grandes (LLMs) produce rendimientos decrecientes? El valor en el mundo real a menudo proviene de la longitud de la tarea que un agente puede completar. Comenzamos este trabajo observando el hecho simple pero contraintuitivo de que las ganancias marginales en la precisión de un solo paso pueden traducirse en mejoras exponenciales en la longitud de una tarea que un modelo puede completar con éxito. Luego, argumentamos que los fallos de los LLMs cuando las tareas simples se hacen más largas surgen de errores en la ejecución, en lugar de una incapacidad para razonar. Proponemos aislar la capacidad de ejecución, proporcionando explícitamente el conocimiento y el plan necesarios para resolver una tarea de horizonte largo. Encontramos que los modelos más grandes pueden ejecutar correctamente significativamente más turnos, incluso cuando los modelos pequeños tienen una precisión del 100% en un solo turno. Observamos que la precisión por paso de los modelos se degrada a medida que aumenta el número de pasos. Esto no se debe solo a las limitaciones del contexto largo —curiosamente, observamos un efecto de autocondicionamiento— los modelos se vuelven más propensos a cometer errores cuando el contexto contiene sus errores de turnos anteriores. El autocondicionamiento no se reduce simplemente escalando el tamaño del modelo. En contraste, los modelos de pensamiento recientes no se autocondicionan y también pueden ejecutar tareas mucho más largas en un solo turno. Concluimos evaluando modelos de pensamiento de vanguardia en la longitud de la tarea que pueden ejecutar en un solo turno. En general, al enfocarnos en la capacidad de ejecución, esperamos reconciliar los debates sobre cómo los LLMs pueden resolver problemas de razonamiento complejos, pero fallar en tareas simples cuando se hacen más largas, y destacar los enormes beneficios de escalar el tamaño del modelo y el cómputo secuencial en tiempo de prueba para tareas de horizonte largo.
La generación de imágenes con resolución arbitraria proporciona una experiencia visual consistente en todos los dispositivos, con amplias aplicaciones tanto para productores como para consumidores. Los modelos de difusión actuales incrementan la demanda computacional de forma cuadrática con la resolución, lo que provoca retrasos de más de 100 segundos en la generación de imágenes en 4K. Para resolver esto, exploramos la segunda generación basada en los modelos de difusión latente, donde el latente fijo generado por los modelos de difusión se considera como la representación del contenido, y proponemos decodificar imágenes de resolución arbitraria utilizando un generador de un solo paso con un latente compacto. Así, presentamos InfGen, que reemplaza el decodificador VAE con este nuevo generador, permitiendo generar imágenes en cualquier resolución a partir de un latente de tamaño fijo sin necesidad de reentrenar los modelos de difusión. Esto simplifica el proceso, reduce la complejidad computacional y puede aplicarse a cualquier modelo que utilice el mismo espacio latente. Los experimentos muestran que InfGen es capaz de llevar muchos modelos a la era de la alta resolución arbitraria, reduciendo el tiempo de generación de imágenes en 4K a menos de 10 segundos.
La generación de formas 3D a nivel de partes es fundamental para aplicaciones posteriores como la retopología de mallas, el mapeo UV y la impresión 3D. Sin embargo, los métodos existentes de generación basados en partes a menudo carecen de suficiente controlabilidad y presentan una descomposición semánticamente significativa deficiente. Para abordar esto, presentamos X-Part, un modelo generativo controlable diseñado para descomponer un objeto 3D holístico en partes semánticamente significativas y estructuralmente coherentes con alta fidelidad geométrica. X-Part utiliza el bounding box como indicaciones para la generación de partes e inyecta características semánticas punto a punto para una descomposición significativa. Además, diseñamos una pipeline editable para la generación interactiva de partes. Los resultados experimentales extensivos muestran que X-Part alcanza un rendimiento de vanguardia en la generación de formas a nivel de partes. Este trabajo establece un nuevo paradigma para la creación de activos 3D listos para producción, editables y estructuralmente sólidos. Los códigos se liberarán para investigación pública.
El compromiso y la motivación son cruciales para la adquisición de un segundo idioma, sin embargo, mantener el interés de los estudiantes en conversaciones educativas sigue siendo un desafío. Aunque investigaciones previas han explorado qué hace que los textos educativos sean interesantes, aún se sabe poco sobre las características lingüísticas que impulsan el compromiso en las conversaciones. Para abordar esta brecha, presentamos IntrEx, el primer conjunto de datos grande anotado para la interesabilidad y la interesabilidad esperada en interacciones entre profesor y estudiante. Basado en el Corpus de Chat de Profesor-Estudiante (TSCC), IntrEx amplía trabajos previos al incorporar anotaciones a nivel de secuencia, permitiendo estudiar el compromiso más allá de turnos aislados para capturar cómo evoluciona el interés en diálogos extendidos. Empleamos un riguroso proceso de anotación con más de 100 estudiantes de un segundo idioma, utilizando un enfoque de calificación basado en comparaciones inspirado en el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para mejorar el acuerdo. Investigamos si los modelos de lenguaje grandes (LLMs) pueden predecir los juicios de interesabilidad humana. Encontramos que los LLMs (7B/8B parámetros) ajustados finamente en calificaciones de interesabilidad superan a modelos propietarios más grandes como GPT-4o, demostrando el potencial de los conjuntos de datos especializados para modelar el compromiso en entornos educativos. Finalmente, analizamos cómo factores lingüísticos y cognitivos, como la concreción, la comprensibilidad (legibilidad) y la asimilación, influyen en el compromiso en diálogos educativos.
La rápida adopción de agentes de IA autónomos está dando lugar a una nueva capa económica en la que los agentes transaccionan y se coordinan a escalas y velocidades que superan la supervisión humana directa. Proponemos la "economía de entorno controlado" como un marco para analizar este sistema emergente, caracterizándolo en dos dimensiones clave: sus orígenes (emergente vs. intencional) y su grado de separación de la economía humana establecida (permeable vs. impermeable). Nuestra trayectoria actual apunta hacia la emergencia espontánea de una economía de agentes de IA vasta y altamente permeable, presentándonos oportunidades para un grado de coordinación sin precedentes, así como desafíos significativos, incluidos riesgos económicos sistémicos y una desigualdad exacerbada. Aquí discutimos una serie de posibles decisiones de diseño que podrían conducir a mercados de agentes de IA seguros y manejables. En particular, consideramos mecanismos de subasta para la asignación justa de recursos y la resolución de preferencias, el diseño de "economías de misión" de IA para coordinar el logro de objetivos colectivos, y la infraestructura socio-técnica necesaria para garantizar confianza, seguridad y rendición de cuentas. Al hacerlo, abogamos por el diseño proactivo de mercados de agentes manejables para asegurar que el próximo cambio tecnológico se alinee con el florecimiento colectivo a largo plazo de la humanidad.
El enfoque de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora los sistemas de respuesta a preguntas y las tareas de generación de diálogos al integrar tecnologías de recuperación de información (IR) con modelos de lenguaje de gran escala (LLMs). Esta estrategia, que recupera información de bases de conocimiento externas para reforzar las capacidades de respuesta de los modelos generativos, ha logrado ciertos éxitos. Sin embargo, los métodos actuales de RAG aún enfrentan numerosos desafíos al tratar con consultas de múltiples saltos. Por ejemplo, algunos enfoques dependen excesivamente de la recuperación iterativa, desperdiciando demasiados pasos de recuperación en consultas compuestas. Además, el uso de la consulta compleja original para la recuperación puede no capturar contenido relevante para subconsultas específicas, lo que resulta en contenido recuperado ruidoso. Si no se gestiona este ruido, puede conducir al problema de acumulación de ruido. Para abordar estos problemas, presentamos HANRAG, un novedoso marco basado en heurísticas diseñado para resolver eficientemente problemas de diversa complejidad. Impulsado por un potente revelador, HANRAG dirige las consultas, las descompone en subconsultas y filtra el ruido de los documentos recuperados. Esto mejora la adaptabilidad y la resistencia al ruido del sistema, haciéndolo altamente capaz de manejar diversas consultas. Comparamos el marco propuesto con otros métodos líderes de la industria en varios puntos de referencia. Los resultados demuestran que nuestro marco obtiene un rendimiento superior tanto en tareas de respuesta a preguntas de un solo salto como de múltiples saltos.
A medida que los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) aumentan en sofisticación, su capacidad para realizar razonamientos está siendo sometida a una supervisión cada vez mayor. Aunque destacan en muchas tareas, su comprensión de principios científicos fundamentales, como la física, sigue siendo una frontera poco explorada. Para reflejar los avances en estas capacidades, presentamos un marco novedoso y accesible diseñado para evaluar rigurosamente la comprensión de los VLMs sobre física en 2D. Nuestro marco incluye un generador de escenarios pragmático que crea un banco de pruebas diverso con más de 400 problemas en cuatro dominios principales: Movimiento de Proyectiles, Dinámica de Colisiones, Mecánica y Dinámica de Fluidos. Mediante una evaluación exhaustiva de cuatro VLMs de última generación, demostramos una fuerte correlación entre la escala del modelo y su capacidad de razonamiento, con nuestro modelo de mayor rendimiento, Qwen2.5-VL-7B, alcanzando una puntuación global de 0.815. Encontramos que, aunque los modelos destacan en problemas formulísticos, tienen dificultades significativas en dominios que requieren razonamiento espacial abstracto. Al diseñar este marco, nuestro objetivo es democratizar el estudio del razonamiento científico en los VLMs y fomentar una comprensión más profunda de sus capacidades y limitaciones.
Los modelos de lenguaje grandes con difusión enmascarada (dLLMs) están surgiendo como alternativas prometedoras a los LLMs autoregresivos, ofreciendo un rendimiento competitivo mientras admiten capacidades de generación únicas como el inpainting. Exploramos cómo el inpainting puede informar el diseño de algoritmos de aprendizaje por refuerzo (RL) para dLLMs. Alinear los LLMs con el aprendizaje por refuerzo enfrenta un desafío de exploración: señales de recompensa dispersas y desperdicio de muestras cuando los modelos no logran descubrir soluciones correctas. Si bien esta ineficiencia afecta a los LLMs en general, los dLLMs ofrecen una oportunidad distintiva: su capacidad de inpainting puede guiar la exploración. Introducimos IGPO (Optimización de Política Guiada por Inpainting), un marco de RL que inserta estratégicamente trazas de razonamiento parciales basadas en la verdad fundamental durante el muestreo en línea. A diferencia de proporcionar soluciones completas, el inpainting dirige la exploración hacia espacios de trayectorias prometedores mientras preserva el razonamiento autogenerado, conectando el ajuste fino supervisado y el aprendizaje por refuerzo. Aplicamos IGPO a métodos de optimización basados en grupos como GRPO, donde los fallos de exploración causan ventajas y gradientes nulos. IGPO restaura gradientes significativos mientras mejora la eficiencia de muestreo. También proponemos un ajuste fino supervisado en trazas concisas reescritas sintéticamente que se alinean mejor con los patrones de generación de dLLMs. Con técnicas adicionales, incluido el filtrado basado en entropía, nuestra receta de entrenamiento produce ganancias sustanciales en tres benchmarks matemáticos—GSM8K, Math500 y AMC—alcanzando nuevos resultados de vanguardia para dLLMs enmascarados con atención completa.
El Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) está surgiendo rápidamente como un estándar abierto fundamental, diseñado para mejorar la integración e interoperabilidad entre agentes y herramientas, y está posicionado para desbloquear una nueva era de IA agentiva potente, interconectada y genuinamente utilitaria. Sin embargo, a pesar de la creciente adopción del MCP, los puntos de referencia existentes a menudo no logran capturar el rendimiento de los agentes en escenarios del mundo real dentro de este nuevo paradigma, lo que lleva a una percepción distorsionada de su verdadero valor operativo y a una incapacidad para diferenciar de manera confiable sus competencias. Para cerrar esta brecha crítica de evaluación, presentamos MCP-AgentBench: un punto de referencia integral diseñado específicamente para evaluar rigurosamente las capacidades de los agentes de lenguaje en interacciones con herramientas mediadas por el MCP. Las contribuciones principales de MCP-AgentBench incluyen: el establecimiento de un entorno de prueba robusto para el MCP que comprende 33 servidores operativos con 188 herramientas distintas; el desarrollo de un punto de referencia que incluye 600 consultas diseñadas sistemáticamente, distribuidas en 6 categorías distintas con diversos niveles de complejidad de interacción; y la introducción de MCP-Eval, una metodología de evaluación novedosa orientada a resultados que prioriza el éxito en tareas del mundo real. A través de una evaluación empírica extensa de los principales agentes de lenguaje, ofrecemos insights fundamentales. MCP-AgentBench tiene como objetivo proporcionar a la comunidad investigadora un marco estandarizado y confiable para construir, validar y avanzar agentes capaces de aprovechar plenamente los beneficios transformadores del MCP, acelerando así el progreso hacia sistemas de IA verdaderamente capaces e interoperables.
El aprendizaje de cola larga ha captado una atención creciente debido a su amplia aplicabilidad en escenarios del mundo real. Entre los enfoques existentes, el Aprendizaje Semi-Supervisado de Cola Larga (LTSSL, por sus siglas en inglés) ha surgido como una solución efectiva al incorporar una gran cantidad de datos no etiquetados en conjuntos de datos etiquetados desequilibrados. Sin embargo, la mayoría de los métodos LTSSL anteriores están diseñados para entrenar modelos desde cero, lo que a menudo conduce a problemas como sobreconfianza y pseudoetiquetas de baja calidad. Para abordar estos desafíos, extendemos LTSSL al paradigma de ajuste fino de modelos base y proponemos un marco novedoso: LoFT (Aprendizaje Semi-Supervisado de Cola Larga mediante Ajuste Fino Eficiente en Parámetros). Demostramos que los modelos base ajustados pueden generar pseudoetiquetas más confiables, beneficiando así el aprendizaje desequilibrado. Además, exploramos un escenario más práctico al investigar el aprendizaje semi-supervisado en condiciones de mundo abierto, donde los datos no etiquetados pueden incluir muestras fuera de distribución (OOD, por sus siglas en inglés). Para manejar este problema, proponemos LoFT-OW (LoFT en Escenarios de Mundo Abierto) para mejorar la capacidad discriminativa. Los resultados experimentales en múltiples benchmarks demuestran que nuestro método logra un rendimiento superior en comparación con enfoques anteriores, incluso cuando se utiliza solo el 1\% de los datos no etiquetados en comparación con trabajos previos.
La alineación precisa de colores en la generación de texto a imagen (T2I) es crucial para aplicaciones como la moda, la visualización de productos y el diseño de interiores. Sin embargo, los modelos de difusión actuales tienen dificultades con términos de color matizados y compuestos (por ejemplo, azul Tiffany, verde lima, rosa fucsia), produciendo a menudo imágenes que no se alinean con la intención humana. Los enfoques existentes dependen de la manipulación de atención cruzada, imágenes de referencia o ajustes finos, pero no logran resolver sistemáticamente las descripciones de color ambiguas. Para representar colores con precisión ante la ambigüedad en las indicaciones, proponemos un marco de trabajo que no requiere entrenamiento y que mejora la fidelidad del color al aprovechar un modelo de lenguaje grande (LLM) para desambiguar las indicaciones relacionadas con el color y guiar las operaciones de mezcla de colores directamente en el espacio de incrustaciones de texto. Nuestro método primero emplea un modelo de lenguaje grande (LLM) para resolver términos de color ambiguos en la indicación de texto, y luego refina las incrustaciones de texto basándose en las relaciones espaciales de los términos de color resultantes en el espacio de color CIELAB. A diferencia de métodos anteriores, nuestro enfoque mejora la precisión del color sin requerir entrenamiento adicional ni imágenes de referencia externas. Los resultados experimentales demuestran que nuestro marco de trabajo mejora la alineación de colores sin comprometer la calidad de la imagen, cerrando la brecha entre la semántica del texto y la generación visual.
Presentamos Integración de Estructuras Probabilísticas (PSI), un sistema para aprender modelos del mundo altamente controlables y flexibles mediante indicaciones (prompts) a partir de datos. PSI consiste en un ciclo de tres pasos. El primer paso, Predicción Probabilística, implica construir un modelo gráfico probabilístico Psi de los datos, en forma de un modelo autoregresivo de acceso aleatorio. Psi soporta un conjunto completo de distribuciones condicionales aprendidas que describen la dependencia de cualquier variable en los datos respecto a cualquier otro conjunto de variables. En el paso 2, Extracción de Estructuras, mostramos cómo extraer propiedades subyacentes de baja dimensión en los datos, correspondientes a un conjunto diverso de "estructuras intermedias" significativas, de manera zero-shot mediante inferencia causal sobre Psi. El paso 3, Integración, completa el ciclo convirtiendo estas estructuras en nuevos tipos de tokens que luego se mezclan continuamente en la dieta de entrenamiento como señales de condicionamiento y objetivos de predicción. Cada ciclo de este tipo aumenta las capacidades de Psi, permitiéndole modelar mejor los datos subyacentes y creando nuevos puntos de control, similares a un lenguaje universal de indicaciones (prompts) como el de los LLM. Entrenamos una instancia de Psi con 1.4 billones de tokens de datos de video de internet; lo utilizamos para realizar diversas inferencias útiles de predicción y comprensión de video; extraemos flujo óptico de última generación, profundidad autosupervisada y segmentación de objetos; y usamos estas estructuras para respaldar un ciclo completo de mejoras predictivas.
Los modelos de lenguaje hablado (SLMs, por sus siglas en inglés) han surgido como un paradigma unificado para la comprensión y generación del habla, permitiendo una interacción natural entre humanos y máquinas. Sin embargo, aunque la mayoría de los avances se han centrado en la precisión semántica y el seguimiento de instrucciones, la capacidad de los SLMs para adaptar su estilo de habla basándose en instrucciones verbales ha recibido poca atención. Introducimos la Adaptación de Estilo de Voz (VSA, por sus siglas en inglés), una nueva tarea que examina si los SLMs pueden modificar su estilo de habla, como el timbre, la prosodia o la personalidad, siguiendo comandos en lenguaje natural hablado. Para estudiar esta tarea, presentamos VStyle, un benchmark bilingüe (chino e inglés) que cubre cuatro categorías de generación de habla: atributos acústicos, instrucciones en lenguaje natural, interpretación de roles y empatía implícita. También introducimos el marco Large Audio Language Model as a Judge (LALM as a Judge), que evalúa progresivamente las salidas en términos de fidelidad textual, adherencia al estilo y naturalidad, asegurando una evaluación reproducible y objetiva. Los experimentos en sistemas comerciales y SLMs de código abierto demuestran que los modelos actuales enfrentan limitaciones claras en la adaptación controlable de estilos, destacando tanto la novedad como el desafío de esta tarea. Al publicar VStyle y su kit de herramientas de evaluación, nuestro objetivo es proporcionar a la comunidad una base para avanzar en la interacción hablada centrada en el ser humano. El conjunto de datos y el código están disponibles públicamente en https://junzhan2000.github.io/VStyle.github.io/{página principal del proyecto}.
El desarrollo de políticas eficientes de Visión-Lenguaje-Acción (VLA) es crucial para la implementación práctica de la robótica, sin embargo, los enfoques actuales enfrentan costos computacionales y requisitos de recursos prohibitivos. Las políticas VLA basadas en difusión existentes requieren modelos con miles de millones de parámetros y conjuntos de datos masivos para alcanzar un rendimiento sólido. Abordamos este desafío de eficiencia con dos contribuciones: la fusión de modalidades intermedias, que reasigna capacidad a la cabeza de difusión mediante la poda de hasta el 50% de las capas del modelo de lenguaje grande (LLM), y el condicionamiento Global-AdaLN específico para acciones, que reduce los parámetros en un 20% mediante adaptación modular. Integramos estos avances en una nueva VLA de 950 millones de parámetros llamada FLOWER. Preentrenada en solo 200 horas de GPU H100, FLOWER ofrece un rendimiento competitivo con VLAs más grandes en 190 tareas que abarcan diez puntos de referencia de simulación y del mundo real, y demuestra robustez en diversas implementaciones robóticas. Además, FLOWER logra un nuevo estado del arte (SoTA) de 4.53 en el punto de referencia CALVIN ABC. Demostraciones, código y pesos preentrenados están disponibles en https://intuitive-robots.github.io/flower_vla/.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en razonamiento financiero y comprensión de mercados. Los marcos de trabajo multiagente basados en LLMs, como TradingAgent y FINMEM, potencian estos modelos para tareas de inversión a largo plazo, aprovechando entradas fundamentales y basadas en sentimientos para la toma de decisiones estratégicas. Sin embargo, estos sistemas no son adecuados para las demandas de alta velocidad y precisión crítica del Trading de Alta Frecuencia (HFT, por sus siglas en inglés). El HFT requiere decisiones rápidas y conscientes del riesgo basadas en señales estructuradas y de corto plazo, como indicadores técnicos, patrones de gráficos y características basadas en tendencias, lo que difiere del razonamiento semántico a largo plazo típico de las aplicaciones tradicionales de LLMs en finanzas. Con este fin, presentamos QuantAgent, el primer marco de trabajo multiagente basado en LLMs diseñado explícitamente para el trading algorítmico de alta frecuencia. El sistema descompone el trading en cuatro agentes especializados: Indicador, Patrón, Tendencia y Riesgo, cada uno equipado con herramientas específicas del dominio y capacidades de razonamiento estructurado para capturar distintos aspectos de la dinámica del mercado en ventanas temporales cortas. En evaluaciones zero-shot en diez instrumentos financieros, incluyendo Bitcoin y futuros del Nasdaq, QuantAgent demuestra un rendimiento superior tanto en precisión predictiva como en retorno acumulado durante intervalos de trading de 4 horas, superando a fuertes líneas base neuronales y basadas en reglas. Nuestros hallazgos sugieren que combinar conocimientos financieros estructurados con razonamiento nativo del lenguaje desbloquea un nuevo potencial para sistemas de decisión trazables y en tiempo real en mercados financieros de alta frecuencia.
El razonamiento visual sobre datos estructurados, como tablas, es una capacidad crítica para los modelos modernos de visión y lenguaje (VLMs), sin embargo, los puntos de referencia actuales siguen siendo limitados en escala, diversidad o profundidad de razonamiento, especialmente cuando se trata de imágenes de tablas renderizadas. Para abordar esta brecha, presentamos Visual-TableQA, un conjunto de datos multimodal a gran escala y de dominio abierto, diseñado específicamente para evaluar y mejorar el razonamiento visual sobre datos tabulares complejos. Nuestro pipeline de generación es modular, escalable y completamente autónomo, e involucra múltiples modelos de lenguaje de razonamiento (LLMs) que colaboran en roles distintos: generación, validación e inspiración. Visual-TableQA comprende 2.5k tablas renderizadas en LaTeX con estructuras ricas y 6k pares de preguntas y respuestas intensivas en razonamiento, todos producidos a un costo inferior a USD 100. Para promover la diversidad y la creatividad, nuestro pipeline realiza una generación de datos colaborativa multi-modelo mediante indicaciones cruzadas entre modelos ('inspiración') y filtrado por un jurado de LLMs. Modelos más fuertes proponen diseños y temas que los modelos más débiles elaboran, destilando colectivamente diversos patrones de razonamiento y estructuras visuales en el conjunto de datos. Los resultados empíricos muestran que los modelos ajustados en Visual-TableQA generalizan de manera robusta a puntos de referencia externos, superando a varios modelos propietarios a pesar de la naturaleza sintética del conjunto de datos. El pipeline completo y los recursos están disponibles públicamente en https://github.com/AI-4-Everyone/Visual-TableQA.
La incorporación de contexto externo puede mejorar significativamente la calidad de las respuestas de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los contextos del mundo real a menudo mezclan información relevante con contenido inapropiado desproporcionado, lo que plantea riesgos de fiabilidad. ¿Cómo procesan y priorizan los LLMs el contexto mixto? Para estudiar esto, presentamos el Banco de Pruebas de Contexto Envenenado, que empareja consultas con contextos del mundo real que contienen información relevante y contenido inapropiado. Inspirados por el aprendizaje asociativo en animales, adaptamos el modelo Rescorla-Wagner (RW) de la neurociencia para cuantificar cómo las señales contextuales en competencia influyen en las salidas de los LLMs. Nuestro modelo adaptado revela un patrón de comportamiento consistente: los LLMs muestran una fuerte tendencia a incorporar información que es menos prevalente en el contexto. Esta susceptibilidad es perjudicial en entornos del mundo real, donde pequeñas cantidades de contenido inapropiado pueden degradar sustancialmente la calidad de las respuestas. Las evaluaciones empíricas en nuestro banco de pruebas confirman aún más esta vulnerabilidad. Para abordar esto, presentamos RW-Steering, un enfoque basado en ajuste fino en dos etapas que permite al modelo identificar y ignorar internamente las señales inapropiadas. A diferencia de métodos anteriores que dependen de una supervisión extensa en diversas mezclas de contexto, RW-Steering generaliza de manera robusta en proporciones variables de contenido inapropiado. Los experimentos muestran que nuestro mejor modelo ajustado mejora la calidad de las respuestas en un 39.8% y revierte la curva de comportamiento indeseable, estableciendo RW-Steering como una solución robusta y generalizable de ingeniería de contexto para mejorar la seguridad de los LLMs en su uso en el mundo real.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en diversos dominios. Sin embargo, persiste una pregunta fundamental: ¿Pueden los LLMs utilizar efectivamente el conocimiento causal para la predicción y la generación? A través de estudios empíricos, encontramos que los LLMs entrenados directamente con datos a gran escala a menudo capturan correlaciones espurias en lugar de relaciones causales verdaderas, lo que conduce a un rendimiento subóptimo, especialmente en escenarios fuera de distribución (OOD, por sus siglas en inglés). Para abordar este desafío, proponemos el Ajuste de Atención Causal (CAT, por sus siglas en inglés), un enfoque novedoso que inyecta conocimiento causal de grano fino en el mecanismo de atención. Proponemos una canalización automatizada que aprovecha los conocimientos previos humanos para generar automáticamente señales causales a nivel de token e introducimos el mecanismo de Re-Atención para guiar el entrenamiento, ayudando al modelo a enfocarse en estructuras causales mientras mitiga el ruido y los sesgos en las puntuaciones de atención. Los resultados experimentales en nuestro punto de referencia propuesto, el Juego de Tokens Espurios (STG, por sus siglas en inglés), y en múltiples tareas posteriores demuestran que nuestro enfoque aprovecha efectivamente el conocimiento causal para la predicción y se mantiene robusto en escenarios OOD. Los detalles de implementación se pueden encontrar en https://github.com/Kairong-Han/CAT.
Este artículo de sistema presenta los enfoques del equipo DeMeVa para la tercera edición de la tarea compartida Learning with Disagreements (LeWiDi 2025; Leonardelli et al., 2025). Exploramos dos direcciones: el aprendizaje en contexto (ICL, por sus siglas en inglés) con modelos de lenguaje de gran escala, donde comparamos estrategias de muestreo de ejemplos; y métodos de aprendizaje de distribución de etiquetas (LDL, por sus siglas en inglés) con RoBERTa (Liu et al., 2019b), donde evaluamos varios métodos de ajuste fino. Nuestras contribuciones son dobles: (1) demostramos que el ICL puede predecir efectivamente anotaciones específicas de anotadores (anotaciones perspectivistas), y que la agregación de estas predicciones en etiquetas suaves ofrece un rendimiento competitivo; y (2) argumentamos que los métodos LDL son prometedores para la predicción de etiquetas suaves y merecen una mayor exploración por parte de la comunidad perspectivista.
Las lenguas minoritarias en China, como el tibetano, el uigur y el mongol tradicional, enfrentan desafíos significativos debido a sus sistemas de escritura únicos, que difieren de los estándares internacionales. Esta discrepancia ha llevado a una grave falta de corpus relevantes, particularmente para tareas supervisadas como la generación de titulares. Para abordar esta brecha, presentamos un nuevo conjunto de datos, Chinese Minority Headline Generation (CMHG), que incluye 100,000 entradas para el tibetano y 50,000 entradas cada una para el uigur y el mongol, específicamente curadas para tareas de generación de titulares. Además, proponemos un conjunto de pruebas de alta calidad anotado por hablantes nativos, diseñado para servir como referencia para futuras investigaciones en este ámbito. Esperamos que este conjunto de datos se convierta en un recurso valioso para avanzar en la generación de titulares en lenguas minoritarias chinas y contribuya al desarrollo de benchmarks relacionados.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están transformando rápidamente la investigación en ciencias sociales al permitir la automatización de tareas intensivas en mano de obra, como la anotación de datos y el análisis de textos. Sin embargo, los resultados de los LLMs varían significativamente según las decisiones de implementación tomadas por los investigadores (por ejemplo, la selección del modelo, la estrategia de *prompting* o los ajustes de temperatura). Esta variación puede introducir sesgos sistemáticos y errores aleatorios, los cuales se propagan a los análisis posteriores y causan errores de Tipo I, Tipo II, Tipo S o Tipo M. A este fenómeno lo denominamos *LLM hacking*. Cuantificamos el riesgo de *LLM hacking* replicando 37 tareas de anotación de datos de 21 estudios de investigación en ciencias sociales publicados, utilizando 18 modelos diferentes. Al analizar 13 millones de etiquetas generadas por LLMs, probamos 2,361 hipótesis realistas para medir cómo las decisiones plausibles de los investigadores afectan las conclusiones estadísticas. Encontramos conclusiones incorrectas basadas en datos anotados por LLMs en aproximadamente una de cada tres hipótesis para los modelos más avanzados, y en la mitad de las hipótesis para los modelos de lenguaje pequeños. Si bien nuestros hallazgos muestran que un mayor rendimiento en la tarea y mejores capacidades generales del modelo reducen el riesgo de *LLM hacking*, incluso los modelos altamente precisos no lo eliminan por completo. El riesgo de *LLM hacking* disminuye a medida que aumentan los tamaños del efecto, lo que indica la necesidad de una verificación más rigurosa de los hallazgos cercanos a los umbrales de significancia. Nuestro extenso análisis de las técnicas de mitigación de *LLM hacking* enfatiza la importancia de las anotaciones humanas para reducir los falsos positivos y mejorar la selección de modelos. Sorprendentemente, las técnicas comunes de corrección de estimadores de regresión son en gran medida ineficaces para reducir el riesgo de *LLM hacking*, ya que intercambian significativamente errores de Tipo I frente a errores de Tipo II. Más allá de los errores accidentales, encontramos que el *LLM hacking* intencional es inaceptablemente simple. Con pocos LLMs y solo un puñado de paráfrasis de *prompts*, cualquier cosa puede presentarse como estadísticamente significativa.