Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos generativos de video de última generación suelen aprender la distribución de latentes de video en el espacio VAE y mapearlos a píxeles mediante un decodificador VAE. Si bien este enfoque puede generar videos de alta calidad, adolece de una convergencia lenta y resulta computacionalmente costoso al generar videos largos. En este artículo, presentamos SemanticGen, una solución novedosa para abordar estas limitaciones mediante la generación de videos en el espacio semántico. Nuestra principal intuición es que, debido a la redundancia inherente en los videos, el proceso de generación debería comenzar en un espacio semántico compacto y de alto nivel para la planificación global, seguido de la adición de detalles de alta frecuencia, en lugar de modelar directamente un vasto conjunto de tokens de video de bajo nivel utilizando atención bidireccional. SemanticGen adopta un proceso de generación en dos etapas. En la primera etapa, un modelo de difusión genera características de video semánticas compactas, que definen el diseño global del video. En la segunda etapa, otro modelo de difusión genera latentes VAE condicionados por estas características semánticas para producir el resultado final. Observamos que la generación en el espacio semántico conduce a una convergencia más rápida en comparación con el espacio latente VAE. Nuestro método también es efectivo y computacionalmente eficiente cuando se extiende a la generación de videos largos. Experimentos exhaustivos demuestran que SemanticGen produce videos de alta calidad y supera a los enfoques de última generación y líneas base sólidas.
Los enfoques existentes de aprendizaje por refuerzo (RL) tratan a los grandes modelos de lenguaje (LLMs) como una única política unificada, pasando por alto sus mecanismos internos. Por lo tanto, comprender cómo evoluciona la política a través de las capas y módulos es crucial para permitir una optimización más dirigida y desentrañar los mecanismos de razonamiento complejo. En este artículo, descomponemos la política del modelo de lenguaje aprovechando la división intrínseca del flujo residual del Transformer y la equivalencia entre la composición de los estados ocultos con la matriz de desincrustación y la política muestreable resultante. Esta descomposición revela Políticas Internas de Capa, que corresponden a las contribuciones de capas individuales, y Políticas Internas Modulares, que se alinean con los componentes de autoatención y la red feed-forward (FFN) dentro de cada capa. Al analizar la entropía de la política interna, encontramos que: (a) Las primeras capas mantienen una alta entropía para la exploración, mientras que las capas superiores convergen a una entropía cercana a cero para el refinamiento, con patrones de convergencia que varían entre series de modelos. (b) El espacio de predicción de LLama converge rápidamente en la capa final, mientras que los modelos de la serie Qwen, especialmente Qwen3, exhiben un patrón de razonamiento progresivamente estructurado, más similar al humano. Motivados por estos hallazgos, proponemos la Optimización de Políticas de Abajo hacia Arriba (BuPO), un nuevo paradigma de RL que optimiza directamente la política interna de capa durante las primeras etapas del entrenamiento. Al alinear el objetivo de entrenamiento en las capas inferiores, BuPO reconstruye capacidades de razonamiento fundamentales y logra un rendimiento superior. Experimentos exhaustivos en benchmarks de razonamiento complejo demuestran la efectividad de nuestro método. Nuestro código está disponible en https://github.com/Trae1ounG/BuPO.
Los recientes avances en LLM multimodales y sistemas que utilizan herramientas para QA de videos largos apuntan al potencial del razonamiento sobre episodios de una hora de duración. Sin embargo, muchos métodos aún comprimen el contenido en resúmenes con pérdida de información o dependen de conjuntos de herramientas limitados, lo que debilita la localización temporal y pierde indicios detallados. Proponemos un marco multiagente en el que un LLM maestro coordina a un agente de localización para segmentos relevantes a la pregunta y a un agente de visión para extraer observaciones textuales específicas. El agente maestro planifica con un límite de pasos y se entrena con aprendizaje por refuerzo para fomentar una cooperación multiagente concisa, correcta y eficiente. Este diseño ayuda al agente maestro a enfocarse en clips relevantes mediante localización, complementa los subtítulos con detalles visuales y produce trayectorias interpretables. En nuestros conjuntos de datos LongTVQA y LongTVQA+ propuestos, que son conjuntos a nivel de episodio agregados a partir de TVQA/TVQA+, nuestro sistema multiagente supera significativamente a sólidas líneas base no agentes. Los experimentos también muestran que el aprendizaje por refuerzo fortalece aún más el razonamiento y la planificación para el agente entrenado. El código y los datos se compartirán en https://longvideoagent.github.io/.
La ciencia cognitiva sugiere que la capacidad espacial se desarrolla progresivamente, desde la percepción hasta el razonamiento y la interacción. Sin embargo, en los modelos de lenguaje multimodal (MLLM), esta jerarquía sigue siendo poco comprendida, ya que la mayoría de los estudios se centran en un conjunto reducido de tareas. Presentamos SpatialTree, una jerarquía inspirada en la ciencia cognitiva que organiza las habilidades espaciales en cuatro niveles: percepción de bajo nivel (L1), mapeo mental (L2), simulación (L3) y competencia agéntica (L4). Basándonos en esta taxonomía, construimos el primer benchmark jerárquico centrado en capacidades, evaluando exhaustivamente los MLLM principales en 27 sub-habilidades. Los resultados de la evaluación revelan una estructura clara: las habilidades de L1 son en gran medida ortogonales, mientras que las habilidades de nivel superior están fuertemente correlacionadas, lo que indica una interdependencia creciente. Mediante ajuste fino supervisado dirigido, descubrimos una dinámica de transferencia sorprendente: transferencia negativa dentro de L1, pero una fuerte transferencia cruzada de niveles de habilidades bajas a altas con una notable sinergia. Finalmente, exploramos cómo mejorar toda la jerarquía. Encontramos que el RL ingenuo que fomenta un "pensamiento" extenso es poco fiable: ayuda al razonamiento complejo pero perjudica la percepción intuitiva. Proponemos una simple estrategia de auto-pensamiento que suprime la deliberación innecesaria, permitiendo que el RL mejore consistentemente el rendimiento en todos los niveles. Al construir SpatialTree, proporcionamos un marco de prueba de concepto para comprender y escalar sistemáticamente las habilidades espaciales en los MLLM.
Los sistemas de memoria de auto-evolución están reconfigurando de manera sin precedentes el paradigma evolutivo de los agentes basados en modelos de lenguaje grande (LLM). Trabajos anteriores han dependido predominantemente de arquitecturas de memoria diseñadas manualmente para almacenar trayectorias, destilar experiencias y sintetizar herramientas reutilizables, permitiendo que los agentes evolucionen sobre la marcha dentro de las interacciones del entorno. Sin embargo, este paradigma está fundamentalmente limitado por la estaticidad del propio sistema de memoria: mientras que la memoria facilita la evolución a nivel de agente, la arquitectura de memoria subyacente no puede meta-adaptarse a diversos contextos de tarea. Para abordar esta brecha, proponemos MemEvolve, un marco meta-evolutivo que evoluciona conjuntamente el conocimiento experiencial de los agentes y su arquitectura de memoria, permitiendo que los sistemas de agentes no solo acumulen experiencia, sino que también refinen progresivamente cómo aprenden de ella. Para fundamentar MemEvolve en investigaciones previas y fomentar la apertura en futuros sistemas auto-evolutivos, presentamos EvolveLab, una base de código unificada de memoria auto-evolutiva que destila doce sistemas de memoria representativos en un espacio de diseño modular (codificar, almacenar, recuperar, gestionar), proporcionando tanto un sustrato de implementación estandarizado como un campo experimental equitativo. Evaluaciones exhaustivas en cuatro benchmarks desafiantes de agentes demuestran que MemEvolve logra (I) ganancias sustanciales de rendimiento, mejorando marcos como SmolAgent y Flash-Searcher hasta en un 17.06%; y (II) una fuerte generalización cruzada entre tareas y modelos LLM, diseñando arquitecturas de memoria que se transfieren efectivamente a través de diversos benchmarks y modelos base.
Los agentes basados en Modelos de Lenguaje a Gran Escala (LLM) han demostrado capacidades notables en razonamiento complejo e interacciones multi-turno, pero luchan por mejorar y adaptarse continuamente cuando se despliegan en nuevos entornos. Un enfoque prometedor es implementar bibliotecas de habilidades que permitan a los agentes aprender, validar y aplicar nuevas habilidades. Sin embargo, los enfoques actuales de bibliotecas de habilidades dependen principalmente de la elicitación por LLM, lo que hace difícil una implementación consistente. Para superar estos desafíos, proponemos un enfoque basado en Aprendizaje por Refuerzo (RL) para mejorar las capacidades de auto-mejora de los agentes con una biblioteca de habilidades. Específicamente, presentamos Skill Augmented GRPO for self-Evolution (SAGE), un novedoso marco de RL que incorpora sistemáticamente habilidades en el aprendizaje. El componente clave del marco, el *Sequential Rollout*, despliega agentes iterativamente a través de una cadena de tareas similares para cada iteración. A medida que los agentes navegan por la cadena de tareas, las habilidades generadas en tareas anteriores se acumulan en la biblioteca y quedan disponibles para tareas subsiguientes. Adicionalmente, el marco mejora la generación y utilización de habilidades mediante una Recompensa Integrada de Habilidades que complementa las recompensas originales basadas en resultados. Los resultados experimentales en AppWorld demuestran que SAGE, aplicado a un modelo ajustado supervisadamente con experiencia experta, logra un 8.9% más de Finalización de Objetivos de Escenario, mientras requiere un 26% menos de pasos de interacción y genera un 59% menos de tokens, superando sustancialmente a los enfoques existentes tanto en precisión como en eficiencia.
A medida que los LLM evolucionan hacia agentes autónomos, la Investigación Profunda ha emergido como una métrica pivotal. Sin embargo, benchmarks académicos existentes como BrowseComp a menudo no satisfacen las demandas del mundo real para la investigación de carácter abierto, la cual requiere habilidades robustas en reconocimiento de intenciones, toma de decisiones de largo alcance y verificación cruzada de fuentes. Para abordar esto, presentamos Step-DeepResearch, un agente costo-eficiente de extremo a extremo. Proponemos una Estrategia de Síntesis de Datos Basada en Capacidades Atómicas para reforzar la planificación y redacción de informes, combinada con una ruta de entrenamiento progresiva que va desde el entrenamiento intermedio agencial hasta SFT y RL. Potenciada por un Evaluador de estilo Lista de Verificación, este enfoque mejora significativamente la robustez. Además, para salvar la brecha evaluativa en el dominio chino, establecemos ADR-Bench para escenarios realistas de investigación profunda. Los resultados experimentales muestran que Step-DeepResearch (32B) obtiene un 61.4% en las Escalas de Evaluación de Investigación de Scale AI. En ADR-Bench, supera significativamente a modelos comparables y rivaliza con modelos SOTA de código cerrado como OpenAI y Gemini DeepResearch. Estos hallazgos demuestran que un entrenamiento refinado permite a los modelos de tamaño medio alcanzar capacidades de nivel experto con una relación costo-eficiencia líder en la industria.
La separación general de fuentes de audio es una capacidad clave para los sistemas de IA multimodal que pueden percibir y razonar sobre el sonido. A pesar de los avances sustanciales en los últimos años, los modelos de separación existentes son específicos de un dominio, diseñados para categorías fijas como voz o música, o tienen una capacidad de control limitada, ya que solo admiten una única modalidad de indicación, como el texto. En este trabajo, presentamos SAM Audio, un modelo de base para la separación general de audio que unifica la indicación por texto, por máscaras visuales y por intervalos temporales dentro de un único marco. Construido sobre una arquitectura de transformador de difusión, SAM Audio se entrena con correspondencia de flujos en datos de audio a gran escala que abarcan voz, música y sonidos generales, y puede separar de manera flexible las fuentes objetivo descritas por lenguaje, máscaras visuales o intervalos temporales. El modelo logra un rendimiento de vanguardia en un conjunto diverso de puntos de referencia, incluyendo la separación de sonidos generales, voz, música e instrumentos musicales, tanto en audios de entornos naturales como profesionalmente producidos, superando sustancialmente a los sistemas especializados y de propósito general anteriores. Además, presentamos un nuevo punto de referencia de separación del mundo real con indicaciones multimodales etiquetadas por humanos y un modelo de evaluación sin referencia que se correlaciona fuertemente con el criterio humano.
Presentamos INTELLECT-3, un modelo Mixture-of-Experts de 106B parámetros (12B activos) entrenado con aprendizaje por refuerzo a gran escala en nuestra pila de infraestructura integral de RL. INTELLECT-3 logra un rendimiento de vanguardia para su tamaño en puntos de referencia de matemáticas, código, ciencias y razonamiento, superando a muchos modelos fronterizos más grandes. Liberamos el modelo como código abierto junto con la pila de infraestructura completa utilizada para crearlo, incluyendo marcos de trabajo de RL, la receta completa y una amplia colección de entornos, construidos con la biblioteca de verificadores, para entrenamiento y evaluación desde nuestra plataforma comunitaria Environments Hub. Desarrollado para este esfuerzo, presentamos prime-rl, un marco abierto para el aprendizaje por refuerzo asíncrono a gran escala, que escala sin problemas desde un solo nodo hasta miles de GPUs, y está diseñado para RL agéntico con soporte de primera clase para interacciones multiturno y uso de herramientas. Utilizando esta pila, ejecutamos entrenamiento tanto SFT como RL sobre el modelo GLM-4.5-Air-Base, escalando el entrenamiento de RL hasta 512 H200s con una alta eficiencia de entrenamiento.
Los modelos de lenguaje de código (Code LLMs) son potentes pero costosos de entrenar, existiendo leyes de escalado que predicen el rendimiento en función del tamaño del modelo, los datos y la capacidad de cómputo. Sin embargo, los distintos lenguajes de programación (PLs) tienen impactos variables durante el pre-entrenamiento que afectan significativamente el rendimiento del modelo base, lo que conduce a predicciones de rendimiento inexactas. Además, los trabajos existentes se centran en configuraciones independientes del lenguaje, ignorando la naturaleza inherentemente multilingüe del desarrollo de software moderno. Por lo tanto, es necesario primero investigar las leyes de escalado de los diferentes PLs, y luego considerar sus influencias mutuas para llegar a la ley de escalado multilingüe final. En este artículo, presentamos la primera exploración sistemática de las leyes de escalado para el pre-entrenamiento multilingüe de código, realizando más de 1000 experimentos (equivalente a más de 336,000 horas de H800) en múltiples PLs, tamaños de modelo (de 0.2B a 14B parámetros) y tamaños de conjuntos de datos (1T tokens). Establecemos leyes de escalado integrales para los Code LLMs en múltiples PLs, revelando que los lenguajes interpretados (por ejemplo, Python) se benefician más del aumento del tamaño del modelo y de los datos que los lenguajes compilados (por ejemplo, Rust). El estudio demuestra que el pre-entrenamiento multilingüe proporciona beneficios sinérgicos, particularmente entre PLs sintácticamente similares. Además, la estrategia de pre-entrenamiento de emparejamiento paralelo (concatenar fragmentos de código con sus traducciones) mejora significativamente las habilidades cross-lingual con propiedades de escalado favorables. Finalmente, se propone una ley de escalado multilingüe dependiente de la proporción para asignar óptimamente los tokens de entrenamiento priorizando PLs de alta utilidad (por ejemplo, Python), equilibrando pares de alta sinergia (por ejemplo, JavaScript-TypeScript) y reduciendo la asignación a lenguajes de saturación rápida (Rust), logrando un rendimiento promedio superior en todos los PLs en comparación con la distribución uniforme bajo el mismo presupuesto computacional.
Determinar si las salidas de los modelos de lenguaje de gran tamaño (LLM) contienen alucinaciones de falta de fidelidad es crucial para aplicaciones del mundo real, como la generación aumentada por recuperación y la generación de resúmenes. En este artículo, presentamos FaithLens, un modelo de detección de alucinaciones de fidelidad eficiente en costos y efectivo, que puede proporcionar conjuntamente predicciones binarias y las explicaciones correspondientes para mejorar la confiabilidad. Para lograrlo, primero sintetizamos datos de entrenamiento con explicaciones mediante LLMs avanzados y aplicamos una estrategia de filtrado de datos bien definida para garantizar la corrección de las etiquetas, la calidad de las explicaciones y la diversidad de los datos. Posteriormente, ajustamos el modelo con estos datos de entrenamiento cuidadosamente seleccionados como un inicio en frío y lo optimizamos aún más mediante aprendizaje por refuerzo basado en reglas, utilizando recompensas tanto por la corrección de la predicción como por la calidad de la explicación. Los resultados en 12 tareas diversas muestran que FaithLens, con 8B de parámetros, supera a modelos avanzados como GPT-4.1 y o3. Además, FaithLens puede producir explicaciones de alta calidad, ofreciendo un equilibrio distintivo entre confiabilidad, eficiencia y efectividad.
La Traducción Simultánea de Voz a Texto (StreamST) requiere producir traducciones de forma concurrente con el discurso entrante, lo que impone restricciones estrictas de latencia y exige modelos que equilibren la toma de decisiones con información parcial y una alta calidad de traducción. Los esfuerzos de investigación sobre el tema hasta ahora han dependido del repositorio SimulEval, que ya no se mantiene y no admite sistemas que revisen sus salidas. Además, fue diseñado para simular el procesamiento de segmentos cortos, en lugar de flujos de audio de larga duración, y no proporciona un método sencillo para mostrar los sistemas en una demostración. Como solución, presentamos simulstream, el primer marco de trabajo de código abierto dedicado a la evaluación unificada y demostración de sistemas StreamST. Diseñado para el procesamiento de voz de larga duración, admite no solo enfoques de decodificación incremental, sino también métodos de retraducción, permitiendo su comparación dentro del mismo marco tanto en términos de calidad como de latencia. Además, también ofrece una interfaz web interactiva para demostrar cualquier sistema construido dentro de la herramienta.
El razonamiento temporal sobre diálogos largos y multi-sesión es una capacidad crítica para los agentes conversacionales. Sin embargo, trabajos existentes y nuestro estudio piloto han demostrado que, a medida que los historiales de diálogo aumentan en longitud y acumulan ruido, los modelos actuales de contexto largo tienen dificultades para identificar con precisión la información temporalmente pertinente, lo que perjudica significativamente el rendimiento del razonamiento. Para abordar esto, presentamos Memory-T1, un marco que aprende una política de selección de memoria consciente del tiempo utilizando aprendizaje por refuerzo (RL). Emplea una estrategia de coarse-to-fine, primero podando el historial de diálogo en un conjunto de candidatos utilizando filtros temporales y de relevancia, seguido de un agente de RL que selecciona las sesiones de evidencia precisas. El entrenamiento de RL está guiado por una función de recompensa multinivel que optimiza (i) la precisión de la respuesta, (ii) el fundamento de la evidencia y (iii) la coherencia temporal. En particular, la recompensa de coherencia temporal proporciona una señal densa evaluando la alineación con el alcance temporal de la consulta tanto a nivel de sesión (proximidad cronológica) como a nivel de enunciado (fidelidad cronológica), permitiendo al agente resolver ambigüedades cronológicas sutiles. En el benchmark Time-Dialog, Memory-T1 impulsa un modelo de 7B a una puntuación general del 67.0 %, estableciendo un nuevo estado del arte para modelos de código abierto y superando a una línea base de 14B en un 10.2 %. Los estudios de ablación muestran que las recompensas de coherencia temporal y fundamento de la evidencia contribuyen conjuntamente a una ganancia de rendimiento del 15.0 %. Además, Memory-T1 mantiene la robustez hasta 128k tokens, donde los modelos base colapsan, demostrando su eficacia contra el ruido en historiales de diálogo extensos. El código y los conjuntos de datos están disponibles públicamente en https://github.com/Elvin-Yiming-Du/Memory-T1/
Comprender el mundo físico es esencial para los agentes de IA generalistas. Sin embargo, sigue sin estar claro si los modelos de percepción visual más avanzados (por ejemplo, los grandes modelos de lenguaje y visión, o VLMs) pueden razonar sobre propiedades físicas de forma cuantitativa. Las evaluaciones existentes se basan predominantemente en preguntas y respuestas visuales (VQA) y son cualitativas, ofreciendo una visión limitada sobre si estos modelos pueden inferir cantidades cinemáticas de objetos en movimiento a partir de observaciones en video. Para abordar esto, presentamos QuantiPhy, el primer punto de referencia diseñado para medir cuantitativamente la capacidad de razonamiento físico de un VLM. Compuesto por más de 3.300 instancias de video-texto con valores de verdad numéricos, QuantiPhy evalúa el rendimiento de un VLM en la estimación del tamaño, la velocidad y la aceleración de un objeto en un momento dado, utilizando una de estas propiedades como información previa de entrada. El punto de referencia estandariza las instrucciones y la puntuación para evaluar la precisión numérica, permitiendo comparaciones justas entre modelos. Nuestros experimentos con los VLMs más avanzados revelan una brecha constante entre su plausibilidad cualitativa y su exactitud numérica real. Además, proporcionamos un análisis en profundidad de factores clave como el ruido de fondo, la información previa contrafáctica y las instrucciones estratégicas, y encontramos que los VLMs más avanzados dependen en gran medida del conocimiento del mundo preentrenado en lugar de utilizar fielmente las entradas visuales y textuales proporcionadas como referencia al razonar cuantitativamente sobre propiedades cinemáticas. QuantiPhy ofrece el primer banco de pruebas riguroso y escalable para llevar a los VLMs más allá de la mera plausibilidad verbal hacia una comprensión física cuantitativamente fundamentada.
Los métodos actuales de generación de avatares en video sobresalen en preservación de identidad y alineación de movimiento, pero carecen de agencia genuina; no pueden perseguir objetivos a largo plazo de forma autónoma mediante la interacción adaptativa con el entorno. Abordamos este problema presentando L-IVA (Avatar Visual Interactivo de Largo Horizonte), una tarea y benchmark para evaluar la planificación dirigida a objetivos en entornos generativos estocásticos, y ORCA (Arquitectura de Razonamiento y Cognición en Línea), el primer marco que permite la inteligencia activa en avatares de video. ORCA incorpora capacidades de Modelo Interno del Mundo (IWM) mediante dos innovaciones clave: (1) un ciclo cerrado OTAR (Observar-Pensar-Actuar-Reflexionar) que mantiene un seguimiento robusto del estado bajo incertidumbre generativa mediante la verificación continua de los resultados previstos frente a las generaciones reales, y (2) una arquitectura jerárquica de sistema dual donde el Sistema 2 realiza razonamiento estratégico con predicción de estados mientras el Sistema 1 traduce planes abstractos en descripciones de acción precisas y específicas del modelo. Al formular el control del avatar como un POMDP e implementar una actualización continua de creencias con verificación de resultados, ORCA permite la finalización autónoma de tareas multi-etapa en escenarios de dominio abierto. Experimentos exhaustivos demuestran que ORCA supera significativamente a los baselines de bucle abierto y no reflexivos en tasa de éxito de tareas y coherencia conductual, validando nuestro diseño inspirado en IWM para avanzar la inteligencia de los avatares de video desde la animación pasiva hacia comportamientos activos y orientados a objetivos.
La investigación cualitativa enfrenta un desafío crítico de fiabilidad: los métodos tradicionales de acuerdo inter-evaluador requieren múltiples codificadores humanos, son intensivos en tiempo y a menudo producen una consistencia moderada. Presentamos un marco de validación multiperspectiva para el análisis temático basado en LLM que combina la validación por conjuntos con métricas duales de fiabilidad: Kappa de Cohen (κ) para el acuerdo inter-evaluador y la similitud del coseno para la consistencia semántica. Nuestro marco permite parámetros de análisis configurables (1-6 semillas, temperatura 0.0-2.0), admite estructuras de prompts personalizables con sustitución de variables y proporciona la extracción de temas consensuados en cualquier formato JSON. Como prueba de concepto, evaluamos tres LLMs líderes (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) en una transcripción de entrevista de terapia de arte con psicodélicos, realizando seis ejecuciones independientes por modelo. Los resultados demuestran que Gemini alcanza la mayor fiabilidad (κ= 0.907, coseno=95.3%), seguido por GPT-4o (κ= 0.853, coseno=92.6%) y Claude (κ= 0.842, coseno=92.1%). Los tres modelos logran un alto acuerdo (κ> 0.80), validando el enfoque de conjuntos multi-ejecución. El marco extrae con éxito temas consensuados entre ejecuciones, con Gemini identificando 6 temas consensuados (50-83% de consistencia), GPT-4o identificando 5 temas y Claude 4 temas. Nuestra implementación de código abierto proporciona a los investigadores métricas de fiabilidad transparentes, configuración flexible y extracción de consenso independiente de la estructura, estableciendo bases metodológicas para una investigación cualitativa asistida por IA fiable.
Las interacciones tóxicas en las comunidades de Software de Código Abierto (OSS) reducen la participación de los colaboradores y amenazan la sostenibilidad de los proyectos. Prevenir dicha toxicidad antes de que emerja requiere una comprensión clara de cómo se desarrollan las conversaciones dañinas. Sin embargo, la mayoría de las estrategias de moderación proactiva son manuales, requiriendo un tiempo y esfuerzo significativos por parte de los mantenedores de la comunidad. Para apoyar enfoques más escalables, recopilamos un conjunto de datos de 159 hilos tóxicos descarrilados y 207 hilos no tóxicos de discusiones de GitHub. Nuestro análisis revela que la toxicidad puede ser pronosticada por desencadenantes de tensión, cambios de sentimiento y patrones conversacionales específicos. Presentamos un novedoso marco basado en Modelos de Lenguaje Grande (LLM) para predecir el descarrilamiento conversacional en GitHub utilizando un pipeline de prompting en dos pasos. Primero, generamos Resúmenes de la Dinámica Conversacional (SCDs, por sus siglas en inglés) mediante el prompting de Menos-a-Más (LtM); luego utilizamos estos resúmenes para estimar la probabilidad de descarrilamiento. Evaluada en los modelos Qwen y Llama, nuestra estrategia LtM alcanza puntuaciones F1 de 0.901 y 0.852, respectivamente, con un umbral de decisión de 0.3, superando a los baselines establecidos de PLN en descarrilamiento conversacional. La validación externa en un conjunto de datos de 308 hilos de issues de GitHub (65 tóxicos, 243 no tóxicos) produce una puntuación F1 de hasta 0.797. Nuestros hallazgos demuestran la efectividad del prompting estructurado con LLM para la detección temprana del descarrilamiento conversacional en OSS, permitiendo una moderación proactiva y explicable.
El enfoque es un pilar fundamental de la fotografía, sin embargo, los sistemas de enfoque automático a menudo fallan al capturar el sujeto deseado, y los usuarios frecuentemente desean ajustar el enfoque después de la captura. Presentamos un método novedoso para el reenfoque realista posterior a la captura utilizando modelos de difusión de video. A partir de una única imagen desenfocada, nuestro enfoque genera una pila de enfoque perceptualmente precisa, representada como una secuencia de video, lo que permite un reenfoque interactivo y desbloquea una gama de aplicaciones posteriores. Publicamos un extenso conjunto de datos de pilas de enfoque adquirido en diversas condiciones del mundo real con smartphones para respaldar este trabajo y futuras investigaciones. Nuestro método supera consistentemente a los enfoques existentes tanto en calidad perceptual como en robustez en escenarios desafiantes, allanando el camino para capacidades de edición de enfoque más avanzadas en la fotografía cotidiana. El código y los datos están disponibles en www.learn2refocus.github.io.