Artículos de investigación en IA seleccionados diariamente con traducciones
La creciente demanda de datos de alta calidad para los Modelos de Lenguaje a Gran Escala (LLMs) ha intensificado la necesidad de pipelines de preparación de datos escalables, confiables y semánticamente ricos. Sin embargo, las prácticas actuales siguen dominadas por scripts ad-hoc y flujos de trabajo especificados de manera vaga, que carecen de abstracciones fundamentadas, dificultan la reproducibilidad y ofrecen un soporte limitado para la generación de datos con el modelo en el ciclo. Para abordar estos desafíos, presentamos DataFlow, un framework unificado y extensible para la preparación de datos impulsada por LLMs. DataFlow está diseñado con abstracciones a nivel de sistema que permiten transformaciones de datos modulares, reutilizables y componibles, y proporciona una API de construcción de pipelines al estilo PyTorch para crear flujos de datos depurables y optimizables. El framework consta de casi 200 operadores reutilizables y seis pipelines de dominio general que abarcan texto, razonamiento matemático, código, Text-to-SQL, RAG agencial y extracción de conocimiento a gran escala. Para mejorar aún más la usabilidad, presentamos DataFlow-Agent, que traduce automáticamente especificaciones en lenguaje natural a pipelines ejecutables mediante síntesis de operadores, planificación de pipelines y verificación iterativa. En seis casos de uso representativos, DataFlow mejora consistentemente el rendimiento de los LLMs posteriores. Nuestros pipelines de matemáticas, código y texto superan a conjuntos de datos humanos curados y a líneas base sintéticas especializadas, logrando hasta un +3% de precisión de ejecución en Text-to-SQL sobre SynSQL, mejoras promedio de +7% en benchmarks de código y ganancias de 1 a 3 puntos en MATH, GSM8K y AIME. Además, un conjunto de datos unificado de 10K muestras producido por DataFlow permite que los modelos base superen a sus contrapartes entrenadas con 1M de datos Infinity-Instruct. Estos resultados demuestran que DataFlow proporciona un sustrato práctico y de alto rendimiento para una preparación de datos para LLMs confiable, reproducible y escalable, y establece una base a nivel de sistema para el futuro desarrollo de la IA centrada en datos.
Las representaciones profundas entre modalidades están intrínsecamente interconectadas. En este artículo, analizamos sistemáticamente las características espectrales de varios codificadores semánticos y de píxeles. Curiosamente, nuestro estudio revela una correspondencia altamente inspiradora y poco explorada entre el espectro de características de un codificador y su función: los codificadores semánticos capturan principalmente componentes de baja frecuencia que codifican significado abstracto, mientras que los codificadores de píxeles retienen adicionalmente información de alta frecuencia que transmite detalles finos. Este hallazgo heurístico ofrece una perspectiva unificadora que vincula el comportamiento del codificador con su estructura espectral subyacente. Lo definimos como la Hipótesis del Prisma, donde cada modalidad de datos puede verse como una proyección del mundo natural en un espectro de características compartido, al igual que el prisma. Basándonos en esta idea, proponemos Codificación Automática Unificada (UAE, por sus siglas en inglés), un modelo que armoniza la estructura semántica y los detalles de píxeles mediante un innovador modulador de bandas de frecuencia, permitiendo su coexistencia perfecta. Extensos experimentos en los benchmarks de ImageNet y MS-COCO validan que nuestro UAE unifica efectivamente la abstracción semántica y la fidelidad a nivel de píxeles en un único espacio latente con un rendimiento de vanguardia.
El paradigma de generación en contexto ha demostrado recientemente un gran potencial en la edición de imágenes por instrucciones, destacando tanto en eficiencia de datos como en calidad de síntesis. Sin embargo, adaptar dicho aprendizaje en contexto para la edición de vídeo basada en instrucciones no es trivial. Sin especificar las regiones de edición, los resultados pueden sufrir de imprecisión en dichas áreas y de interferencia entre tokens de zonas editadas y no editadas durante la eliminación de ruido. Para abordar estos problemas, presentamos ReCo, un nuevo paradigma de edición de vídeo por instrucciones que explora de forma novedosa el modelado de restricciones entre regiones editadas y no editadas durante la generación en contexto. Técnicamente, ReCo concatena horizontalmente el vídeo fuente y el objetivo para realizar una eliminación de ruido conjunta. Para calibrar el aprendizaje de difusión de vídeo, ReCo emplea dos términos de regularización: regularización latente y de atención, aplicados respectivamente sobre los latentes desruidificados en un paso hacia atrás y los mapas de atención. El primero incrementa la discrepancia latente de la región de edición entre los vídeos fuente y objetivo mientras reduce la de las áreas no editadas, enfatizando así la modificación en la zona de edición y mitigando la generación de contenido no deseado fuera de ella. El segundo suprime la atención de los tokens en la región de edición hacia los tokens correspondientes del vídeo fuente, reduciendo así su interferencia durante la generación de nuevos objetos en el vídeo objetivo. Además, proponemos un conjunto de datos de edición de vídeo a gran escala y alta calidad, ReCo-Data, que incluye 500.000 pares de instrucción-vídeo para beneficiar el entrenamiento del modelo. Experimentos exhaustivos realizados en cuatro tareas principales de edición de vídeo por instrucciones demuestran la superioridad de nuestra propuesta.
Los recientes avances en los modelos de difusión de vídeo han impulsado el creciente interés en la generación de vídeos desde nuevas perspectivas con control de cámara para escenas dinámicas, con el objetivo de proporcionar a los creadores capacidades de control cinematográfico de cámara en la postproducción. Un desafío clave en la generación de vídeo con control de cámara es garantizar la fidelidad a la pose de cámara especificada, manteniendo al mismo tiempo la consistencia de la vista y razonando sobre la geometría ocluida a partir de observaciones limitadas. Para abordarlo, los métodos existentes entrenan un modelo de generación de vídeo condicionado por trayectorias en un conjunto de datos de pares trayectoria-vídeo, o estiman la profundidad a partir del vídeo de entrada para reproyectarlo a lo largo de una trayectoria objetivo y generar las regiones no proyectadas. Sin embargo, los métodos existentes tienen dificultades para generar vídeos de alta calidad y fieles a la pose de la cámara por dos razones principales: (1) los enfoques basados en reproyección son muy susceptibles a errores causados por una estimación de profundidad inexacta; y (2) la diversidad limitada de trayectorias de cámara en los conjuntos de datos existentes restringe los modelos aprendidos. Para superar estas limitaciones, presentamos InfCam, un marco de generación de vídeo a vídeo con control de cámara, libre de estimación de profundidad y con alta fidelidad de pose. El marco integra dos componentes clave: (1) un warping por homografía infinita, que codifica rotaciones 3D de la cámara directamente dentro del espacio latente 2D de un modelo de difusión de vídeo. Condicionando sobre esta información rotacional libre de ruido, el término de paralaje residual se predice mediante entrenamiento de extremo a extremo para lograr una alta fidelidad a la pose de la cámara; y (2) un pipeline de aumento de datos que transforma conjuntos de datos sintéticos multivista existentes en secuencias con trayectorias y distancias focales diversas. Los resultados experimentales demuestran que InfCam supera a los métodos base en precisión de la pose de cámara y fidelidad visual, generalizando bien de datos sintéticos a datos del mundo real. Enlace a nuestra página del proyecto: https://emjay73.github.io/InfCam/
La Generación Aumentada por Recuperación Dinámica determina de forma adaptativa cuándo recuperar información durante la generación para mitigar las alucinaciones en los modelos de lenguaje grandes (LLM). Sin embargo, los métodos existentes se basan en señales internas del modelo (por ejemplo, logits, entropía), que son fundamentalmente poco fiables porque los LLM suelen estar mal calibrados y a menudo muestran una alta confianza en salidas erróneas. Proponemos QuCo-RAG, que cambia de la confianza subjetiva a estadísticas objetivas calculadas a partir de datos de pre-entrenamiento. Nuestro método cuantifica la incertidumbre en dos etapas: (1) antes de la generación, identificamos entidades de baja frecuencia que indican lagunas de conocimiento de cola larga; (2) durante la generación, verificamos la co-ocurrencia de entidades en el corpus de pre-entrenamiento, donde una co-ocurrencia cero suele señalar riesgo de alucinación. Ambas etapas aprovechan Infini-gram para consultas con latencia de milisegundos sobre 4 billones de tokens, activando la recuperación cuando la incertidumbre es alta. Los experimentos en benchmarks de preguntas y respuestas multi-salto muestran que QuCo-RAG logra ganancias de EM de 5 a 12 puntos sobre los baselines más avanzados con modelos OLMo-2, y se transfiere efectivamente a modelos con datos de pre-entrenamiento no divulgados (Llama, Qwen, GPT), mejorando la EM hasta en 14 puntos. La generalización de dominio en preguntas y respuestas biomédicas valida aún más la robustez de nuestro paradigma. Estos resultados establecen la verificación basada en corpus como un paradigma dinámico para RAG, fundamentado y prácticamente independiente del modelo. Nuestro código está disponible públicamente en https://github.com/ZhishanQ/QuCo-RAG.
La estimación precisa de la dificultad de los ítems (preguntas o tareas) es fundamental para la evaluación educativa, pero sufre del problema del inicio en frío. Si bien los Modelos de Lenguaje a Gran Escala demuestran capacidades de resolución de problemas sobrehumanas, sigue siendo una cuestión abierta si pueden percibir las dificultades cognitivas de los estudiantes humanos. En este trabajo, presentamos un análisis empírico a gran escala de la Alineación de la Dificultad Humano-IA para más de 20 modelos en diversos dominios como el conocimiento médico y el razonamiento matemático. Nuestros hallazgos revelan una desalineación sistemática en la que el escalado del tamaño del modelo no es de ayuda fiable; en lugar de alinearse con los humanos, los modelos convergen hacia un consenso maquínico compartido. Observamos que el alto rendimiento a menudo impide una estimación precisa de la dificultad, ya que los modelos luchan por simular las limitaciones de capacidad de los estudiantes incluso cuando se les indica explícitamente que adopten niveles de competencia específicos. Además, identificamos una falta crítica de introspección, ya que los modelos no logran predecir sus propias limitaciones. Estos resultados sugieren que la capacidad general de resolución de problemas no implica una comprensión de las dificultades cognitivas humanas, destacando el desafío de utilizar los modelos actuales para la predicción automatizada de la dificultad.
La generación de vídeos con coherencia geométrica a largo plazo presenta un dilema fundamental: mientras que la coherencia exige una estricta adherencia a la geometría 3D en el espacio de píxeles, los modelos generativos de vanguardia operan de manera más efectiva en un espacio latente condicionado por la cámara. Esta desconexión hace que los métodos actuales tengan dificultades con áreas ocluidas y trayectorias complejas de cámara. Para cerrar esta brecha, proponemos WorldWarp, un marco que acopla un anclaje estructural 3D con un refinador generativo 2D. Para establecer una base geométrica, WorldWarp mantiene una caché geométrica 3D en línea construida mediante *Gaussian Splatting* (3DGS). Al deformar explícitamente el contenido histórico hacia nuevas vistas, esta caché actúa como un andamiaje estructural, asegurando que cada nuevo fotograma respete la geometría previa. Sin embargo, la deformación estática inevitablemente deja huecos y artefactos debido a las oclusiones. Abordamos esto utilizando un modelo de Difusión Espacio-Temporal (ST-Diff) diseñado para un objetivo de "rellenar y revisar". Nuestra innovación clave es un programa de ruido espacio-temporal variable: las regiones en blanco reciben ruido completo para desencadenar la generación, mientras que las regiones deformadas reciben ruido parcial para permitir el refinamiento. Al actualizar dinámicamente la caché 3D en cada paso, WorldWarp mantiene la coherencia a lo largo de fragmentos de vídeo. En consecuencia, logra una fidelidad de vanguardia al garantizar que la lógica 3D guíe la estructura mientras la lógica de difusión perfecciona la textura. Página del proyecto: https://hyokong.github.io/worldwarp-page/.
La planificación de trayectorias en entornos no estructurados es una capacidad fundamental y desafiante para los robots móviles. Los enfoques modulares tradicionales adolecen de latencia y errores en cascada entre los módulos de percepción, localización, cartografía y planificación. Los métodos recientes de aprendizaje end-to-end mapean observaciones visuales directamente a señales de control o trayectorias, prometiendo mayor rendimiento y eficiencia en entornos de mundo abierto. Sin embargo, la mayoría de los enfoques end-to-end previos aún dependen de módulos de localización separados que requieren una calibración extrínseca precisa de los sensores para la estimación del estado propio, limitando así la generalización entre diferentes configuraciones robóticas y entornos. Presentamos LoGoPlanner, un marco de navegación end-to-end basado en localización que aborda estas limitaciones mediante: (1) el ajuste fino de un modelo base visual-geométrico de largo horizonte para fundamentar las predicciones con escala métrica absoluta, proporcionando así una estimación de estado implícita para una localización precisa; (2) la reconstrucción de la geometría circundante de la escena a partir de observaciones históricas para proporcionar una conciencia ambiental densa y granular para una evitación de obstáculos fiable; y (3) la condicionamiento de la política de control en geometría implícita inicializada por las tareas auxiliares antes mencionadas, reduciendo así la propagación de errores. Evaluamos LoGoPlanner tanto en entornos de simulación como del mundo real, donde su diseño completamente end-to-end reduce el error acumulativo, mientras que la memoria geométrica con conciencia métrica mejora la consistencia de la planificación y la evitación de obstáculos, logrando una mejora superior al 27.3% respecto a líneas base con localización idealizada y una fuerte generalización entre configuraciones robóticas y entornos. El código y los modelos han sido puestos a disposición del público en la {página del proyecto} https://steinate.github.io/logoplanner.github.io/.
Los modelos de lenguaje grandes (LLM) han demostrado capacidades notables en tareas de generación de código. Sin embargo, su efectividad depende en gran medida del entrenamiento supervisado con conjuntos de datos extensos etiquetados (por ejemplo, pares de pregunta-respuesta) o no etiquetados (por ejemplo, fragmentos de código), que a menudo son costosos y difíciles de obtener a gran escala. Para abordar esta limitación, este artículo presenta un método denominado IPC, un marco no supervisado que aprovecha el Sondeo Interno de los LLM para la generación de código, sin necesidad de ningún corpus externo, ni siquiera fragmentos de código no etiquetados. Introducimos el sondeo del espacio del problema, el sondeo de la comprensión de pruebas, el sondeo del espacio de soluciones, y la consolidación y refuerzo del conocimiento para sondear los patrones de conocimiento interno y de confianza existentes en los LLM. Además, IPC identifica candidatos de código confiables mediante mecanismos de auto-consistencia y estimación de calidad basada en representaciones para entrenar a UCoder (un codificador con aprendizaje no supervisado). Validamos el enfoque propuesto en múltiples benchmarks de código, demostrando que los métodos no supervisados pueden lograr un rendimiento competitivo en comparación con los enfoques supervisados, al tiempo que reducen significativamente la dependencia de datos etiquetados y recursos computacionales. Los experimentos analíticos revelan que los estados internos del modelo contienen señales ricas sobre la calidad y corrección del código, y que aprovechar adecuadamente estas señales permite un aprendizaje no supervisado efectivo para tareas de generación de código, abriendo nuevas direcciones para entrenar LLMs de código en escenarios con recursos limitados.
La formación de agentes capaces basados en Modelos de Lenguaje a Gran Escala (LLM) se ve limitada críticamente por el alto costo y la naturaleza estática de los datos de interacción del mundo real. Abordamos este problema presentando GenEnv, un marco que establece un juego coevolutivo alineado con la dificultad entre un agente y un simulador de entorno generativo y escalable. A diferencia de los métodos tradicionales que evolucionan modelos en conjuntos de datos estáticos, GenEnv instancia una evolución de datos: el simulador actúa como una política de currículum dinámico, generando continuamente tareas específicamente adaptadas a la "zona de desarrollo próximo" del agente. Este proceso se guía por una Recompensa de Currículum-α simple pero efectiva, que alinea la dificultad de la tarea con las capacidades actuales del agente. Evaluamos GenEnv en cinco benchmarks, incluyendo API-Bank, ALFWorld, BFCL, Bamboogle y TravelPlanner. En estas tareas, GenEnv mejora el rendimiento del agente hasta en un +40,3 % respecto a los modelos base de 7B, igualando o superando el rendimiento promedio de modelos más grandes. En comparación con la aumentación de datos offline basada en Gemini 2.5 Pro, GenEnv logra un mejor rendimiento utilizando 3,3 veces menos datos. Al cambiar de una supervisión estática a una simulación adaptativa, GenEnv proporciona una vía eficiente en datos para escalar las capacidades de los agentes.
Los Modelos de Lenguaje Grandes de Difusión (dLLMs) han demostrado un potencial significativo para la inferencia de alta velocidad. Sin embargo, las estrategias actuales de decodificación basadas en confianza están limitadas por un paralelismo reducido, logrando típicamente solo 1-3 tokens por pasada hacia adelante (TPF, por sus siglas en inglés). En este trabajo, identificamos que el grado de paralelismo durante la inferencia de los dLLMs es altamente sensible al Orden de Rellenado de Tokens (TFO). Posteriormente, presentamos LoPA (Lookahead PArallel Decoding), un algoritmo plug-and-play que no requiere entrenamiento, para identificar un TFO superior y, por lo tanto, acelerar la inferencia. LoPA explora concurrentemente distintos TFO candidatos mediante ramas paralelas y selecciona aquel con mayor potencial de paralelismo futuro basándose en la confianza de cada rama. Aplicamos LoPA al modelo de última generación D2F y observamos una mejora sustancial en la eficiencia de decodificación. Notablemente, LoPA incrementa el TPF de D2F-Dream a 10.1 en GSM8K manteniendo un rendimiento superior al baseline Dream. Además, para facilitar este grado de paralelismo sin precedentes, desarrollamos un sistema de inferencia especializado multi-dispositivo que presenta Paralelismo de Ramas (BP), el cual alcanza un rendimiento de 1073.9 tokens por segundo para una sola muestra en un despliegue multi-GPU. El código está disponible en https://github.com/zhijie-group/LoPA.
La narrativa visual requiere generar vídeos de múltiples planos con calidad cinematográfica y coherencia a largo plazo. Inspirados en la memoria humana, proponemos StoryMem, un paradigma que reformula la narrativa de vídeo de larga duración como una síntesis iterativa de planos condicionada por una memoria visual explícita, transformando modelos de difusión de vídeo de un solo plano preentrenados en narradores de múltiples planos. Esto se logra mediante un novedoso diseño Memoria-a-Vídeo (M2V), que mantiene un banco de memoria compacto y actualizado dinámicamente con fotogramas clave de los planos generados históricamente. La memoria almacenada se inyecta luego en los modelos de difusión de vídeo de un solo plano mediante concatenación latente y desplazamientos negativos de RoPE, con solo un ajuste fino mediante LoRA. Una estrategia de selección de fotogramas clave semánticos, junto con un filtrado de preferencias estéticas, garantiza además una memoria informativa y estable durante toda la generación. Además, el marco propuesto se adapta naturalmente a transiciones suaves entre planos y a aplicaciones de generación de historias personalizadas. Para facilitar la evaluación, presentamos ST-Bench, un benchmark diverso para la narrativa visual de múltiples planos. Experimentos exhaustivos demuestran que StoryMem logra una coherencia superior entre planos en comparación con métodos anteriores, preservando al mismo tiempo una alta calidad estética y adherencia al prompt, lo que supone un avance significativo hacia la narrativa visual coherente de vídeos de minuto de duración.
La capacidad de exploración determina tanto el rendimiento en inferencia como el entrenamiento por aprendizaje por refuerzo (RL) en modelos lingüísticos (visiolingüísticos) de gran escala, ya que el muestreo estocástico frecuentemente genera trayectorias de razonamiento redundantes con escasa diversidad de alto nivel. Este artículo propone Reasoning Palette, un novedoso marco de modulación latente que dota al modelo de una variable latente estocástica para la contextualización estratégica, guiando su planificación interna antes de la generación de tokens. Este contexto latente se infiere a partir de la incrustación promediada de un par pregunta-respuesta mediante un autoencoder variacional (VAE), donde cada latente muestreado potencialmente codifica un contexto de razonamiento distinto. Durante la inferencia, un latente muestreado se decodifica en prefijos de tokens aprendibles y se antepone al prompt de entrada, modulando la trayectoria interna de razonamiento del modelo. De esta forma, el modelo realiza un muestreo interno de estrategias de razonamiento antes de la generación de salidas, lo que determina el estilo y la estructura de toda la secuencia de respuestas. Una breve fase de calentamiento mediante ajuste fino supervisado (SFT) permite al modelo adaptarse a este condicionamiento latente. Dentro de la optimización por RL, Reasoning Palette facilita la exploración estructurada al permitir la inyección bajo demanda de modos de razonamiento diversos, mejorando significativamente la eficiencia exploratoria y la capacidad de aprendizaje sostenido. Experimentos en múltiples benchmarks de razonamiento demuestran que nuestro método permite un control interpretable y manipulable sobre el comportamiento estratégico del modelo (visio)lingüístico, logrando así ganancias de rendimiento consistentes respecto a métodos estándar de RL.
Entre los benchmarks existentes para uso móvil en línea, AndroidWorld se ha consolidado como el estándar dominante debido a su entorno reproducible y evaluación determinista; sin embargo, los agentes recientes que alcanzan tasas de éxito superiores al 90% indican su saturación y motivan la necesidad de un benchmark más desafiante. Además, su entorno carece de categorías clave de aplicaciones, como comercio electrónico y comunicación empresarial, y no refleja escenarios realistas de uso móvil caracterizados por instrucciones de usuario vagas y uso híbrido de herramientas. Para cerrar esta brecha, presentamos MobileWorld, un benchmark sustancialmente más desafiante diseñado para reflejar mejor el uso móvil del mundo real, que comprende 201 tareas en 20 aplicaciones, manteniendo el mismo nivel de evaluación reproducible que AndroidWorld. La dificultad de MobileWorld es doble. Primero, enfatiza tareas de horizonte largo con interacciones entre aplicaciones: MobileWorld requiere casi el doble de pasos para completar tareas en promedio (27.8 vs. 14.3) e incluye muchas más tareas multi-aplicación (62.2% vs. 9.5%) en comparación con AndroidWorld. Segundo, MobileWorld va más allá de la manipulación estándar de GUI introduciendo nuevas categorías de tareas, incluyendo interacción agente-usuario y tareas aumentadas con MCP. Para garantizar una evaluación robusta, proporcionamos un entorno contenedor basado en snapshots y verificaciones funcionales precisas, incluyendo inspección de bases de datos backend y APIs de callback para tareas. Además, desarrollamos un framework agente planificador-ejecutor con espacios de acción extendidos para soportar interacciones de usuario y llamadas MCP. Nuestros resultados revelan una caída abrupta del rendimiento en comparación con AndroidWorld, con el mejor framework agente y modelo end-to-end alcanzando tasas de éxito del 51.7% y 20.9%, respectivamente. Nuestro análisis muestra que los modelos actuales tienen dificultades significativas con la interacción de usuario y las llamadas MCP, ofreciendo una hoja de ruta estratégica hacia una inteligencia móvil de próxima generación más robusta.
Antes del cierre de rondas de financiación de capital riesgo, los abogados realizan una diligencia debida que incluye la conciliación del cuadro de capitalización: verificar que cada valor (por ejemplo, acciones, opciones, warrants) y condición de emisión (por ejemplo, calendarios de adquisición de derechos, desencadenantes de aceleración, restricciones de transferencia) esté respaldado por amplios conjuntos de documentación legal subyacente. Si bien los LLM continúan mejorando en benchmarks legales, los flujos de trabajo jurídicos especializados, como la conciliación de capitalización, siguen fuera del alcance incluso para sistemas agentales avanzados. La tarea requiere razonamiento multi-documental, trazabilidad estricta de evidencias y resultados deterministas que los enfoques actuales no logran entregar de manera confiable. Caracterizamos la conciliación de capitalización como un ejemplo de benchmark del mundo real para la IA legal, analizamos y comparamos el rendimiento de los sistemas agentales existentes, y proponemos una arquitectura de modelo mundial orientada a la automatización de la conciliación —y más ampliamente como base para la inteligencia legal aplicada.
Los recientes avances en el aprendizaje robótico han estado impulsados por conjuntos de datos a gran escala y arquitecturas de políticas visuomotoras potentes, sin embargo, la robustez de las políticas sigue estando limitada por el coste sustancial de recopilar demostraciones diversas, particularmente para la generalización espacial en tareas de manipulación. Para reducir la recolección repetitiva de datos, presentamos Real2Edit2Real, un marco que genera nuevas demostraciones mediante la conexión de la capacidad de edición 3D con datos visuales 2D a través de una interfaz de control 3D. Nuestro enfoque primero reconstruye la geometría de la escena a partir de observaciones RGB multivista con un modelo de reconstrucción 3D a escala métrica. Basándonos en la geometría reconstruida, realizamos una edición 3D fiable en profundidad sobre nubes de puntos para generar nuevas trayectorias de manipulación, corrigiendo geométricamente las poses del robot para recuperar una profundidad físicamente consistente, lo que sirve como condición fiable para sintetizar nuevas demostraciones. Finalmente, proponemos un modelo de generación de video multicondicional guiado por la profundidad como señal de control principal, junto con mapas de acción, bordes y rayos, para sintetizar videos de manipulación multivista con aumento espacial. Los experimentos en cuatro tareas de manipulación del mundo real demuestran que las políticas entrenadas con datos generados a partir de solo 1-5 demostraciones fuente pueden igualar o superar a aquellas entrenadas con 50 demostraciones reales, mejorando la eficiencia de los datos hasta en 10-50 veces. Además, los resultados experimentales en la edición de altura y textura demuestran la flexibilidad y extensibilidad del marco, indicando su potencial para servir como un marco unificado de generación de datos.
Abordamos la segmentación semántica de partes 3D: descomponer objetos en partes con nombres significativos. Si bien existen conjuntos de datos con anotaciones de partes, sus definiciones son inconsistentes entre ellos, lo que limita el entrenamiento robusto. Los métodos anteriores producen descomposiciones sin etiquetar o recuperan partes individuales sin anotaciones completas de la forma. Proponemos ALIGN-Parts, que formula la asignación de nombres a partes como una tarea directa de alineación de conjuntos. Nuestro método descompone las formas en *partlets* —representaciones implícitas de partes 3D— que se emparejan con descripciones de partes mediante una asignación bipartita. Combinamos indicios geométricos de campos de partes 3D, apariencia a partir de características visuales multi-vista y conocimiento semántico de descripciones de affordances generadas por modelos de lenguaje. Una pérdida por alineación de texto garantiza que los *partlets* compartan el espacio de incrustación con el texto, permitiendo una configuración de emparejamiento de vocabulario abierto en teoría, dados suficientes datos. Nuestro método eficiente y novedoso de segmentación y nombrado de partes 3D en una sola pasada encuentra aplicaciones en varias tareas posteriores, incluido su uso como motor de anotación escalable. Dado que nuestro modelo admite el emparejamiento *zero-shot* con descripciones arbitrarias y predicciones calibradas por confianza para categorías conocidas, con verificación humana, creamos una ontología unificada que alinea PartNet, 3DCoMPaT++ y Find3D, consistente en 1.794 partes 3D únicas. También mostramos ejemplos de nuestro nuevo conjunto de datos Tex-Parts. Además, introducimos 2 métricas novedosas apropiadas para la tarea de segmentación de partes 3D con nombre.
Los modelos de lenguaje-visión (VLM) suelen entrenarse insertando tokens de imagen de un codificador visual preentrenado en el flujo textual de un modelo de lenguaje. Esto permite que la información textual y visual interactúen completamente dentro del modelo, pero resulta extremadamente costoso para imágenes de alta resolución, conversaciones largas o vídeos en streaming, tanto en memoria como en capacidad de cálculo. Los VLM que aprovechan la atención cruzada son una alternativa eficiente a la inserción de tokens, pero muestran una brecha de rendimiento clara, particularmente en tareas que involucran detalles visuales finos. Descubrimos que una clave para mejorar dichos modelos es permitir también la interacción local texto-a-texto en las capas de atención cruzada dedicadas. Basándonos en esto, proponemos CASA (Cross-Attention via Self-Attention), un paradigma simple y eficiente que reduce sustancialmente la brecha con la inserción completa de tokens en benchmarks comunes de comprensión de imágenes, mientras mantiene la misma escalabilidad que los modelos de atención cruzada cuando se aplican a tareas multimodales de contexto largo, como la descripción de vídeos en streaming. Para muestras y código, visite nuestra página del proyecto en https://kyutai.org/casa.
Estudiamos el razonamiento silogístico en los LLMs desde las perspectivas lógica y lingüística. En el proceso, exploramos las capacidades fundamentales de razonamiento de los LLMs y la dirección en la que avanza esta investigación. Para respaldar nuestros estudios, utilizamos 14 modelos de lenguaje grande e investigamos sus capacidades de razonamiento silogístico en términos de inferencias simbólicas y comprensión del lenguaje natural. Aunque este mecanismo de razonamiento no es una propiedad emergente uniforme en todos los LLMs, los desempeños simbólicos perfectos en ciertos modelos nos hacen preguntarnos si los LLMs se están convirtiendo cada vez más en mecanismos de razonamiento formal, en lugar de explicitar los matices del razonamiento humano.
El modelado manual de parámetros materiales y geometría 3D es una tarea que consume tiempo pero esencial en las industrias del videojuego y el cine. Si bien los avances recientes en reconstrucción 3D han permitido aproximaciones precisas de la geometría y apariencia de las escenas, estos métodos a menudo fallan en escenarios de reluz debido a la falta de parámetros materiales precisos y espacialmente variables. Al mismo tiempo, los modelos de difusión que operan sobre imágenes 2D han demostrado un gran rendimiento en la predicción de propiedades de renderizado basado en física (PBR), como albedo, rugosidad y metalicidad. Sin embargo, transferir estos mapas materiales 2D a geometrías 3D reconstruidas sigue siendo un desafío significativo. Proponemos un marco para fusionar datos materiales 2D en geometría 3D utilizando una combinación de nuevos enfoques basados en aprendizaje y en proyección. Comenzamos reconstruyendo la geometría de la escena mediante *Gaussian Splatting*. A partir de las imágenes de entrada, un modelo de difusión genera mapas 2D para los parámetros de albedo, rugosidad y metalicidad. Se puede aplicar cualquier modelo de difusión existente que pueda convertir imágenes o videos en materiales PBR. Las predicciones se integran aún más en la representación 3D, ya sea optimizando una pérdida basada en imagen o proyectando directamente los parámetros materiales sobre los Gaussianos utilizando el trazado de rayos de Gaussianos. Para mejorar la precisión a pequeña escala y la consistencia multi-vista, introducimos además un paso de refinamiento neuronal ligero (*Neural Merger*), que toma características materiales calculadas por trazado de rayos como entrada y produce ajustes detallados. Nuestros resultados demuestran que los métodos propuestos superan a las técnicas existentes tanto en métricas cuantitativas como en realismo visual percibido. Esto permite renderizados más precisos, reluzables y fotorrealistas a partir de escenas reconstruidas, mejorando significativamente el realismo y la eficiencia de los flujos de trabajo de creación de activos en las pipelines de producción de contenido.
Los asistentes de IA producen código vulnerable en el 45% de los escenarios relevantes para la seguridad, introduciendo fallos en los sistemas de producción a gran escala. Sin embargo, los conjuntos de datos existentes sobre codificación segura son insuficientes. Carecen de base en incidentes reales, no proporcionan la escala que requiere el entrenamiento moderno y omiten el contexto operativo de seguridad que los desarrolladores necesitan para los despliegues en producción. Presentamos SecureCode v2.0, un conjunto de datos de grado productivo con 1.215 ejemplos de codificación centrados en la seguridad que superaron la validación estructural y la revisión de expertos en seguridad. Cada ejemplo está vinculado a incidentes de seguridad reales documentados con referencias CVE, proporciona implementaciones vulnerables y seguras, demuestra ataques concretos e incluye orientación operativa de defensa en profundidad. El conjunto de datos cubre 11 categorías de vulnerabilidades (el OWASP Top 10:2025 completo más Amenazas de Seguridad en IA/ML) en 11 lenguajes (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin y YAML para infraestructura como código). Nuestro marco de garantía de calidad asegura una base completa en incidentes reales. Cada ejemplo incluye estrategias de integración con SIEM, recomendaciones de endurecimiento de infraestructura (configuraciones de Docker, AppArmor, WAF) y enfoques de prueba utilizando frameworks apropiados para cada lenguaje. El conjunto de datos utiliza una estructura conversacional de 4 turnos que refleja las interacciones reales entre desarrolladores e IA, escalando desde implementaciones básicas hasta consideraciones de seguridad avanzadas y guía de defensa en profundidad. Nuestras contribuciones: (1) 1.215 ejemplos rigurosamente validados divididos en 989 para entrenamiento, 122 para validación y 104 para pruebas, (2) un marco de validación automatizado que asegura la consistencia del conjunto de datos, (3) una estructura conversacional de 4 turnos que captura flujos de trabajo de seguridad realistas, (4) orientación operativa de seguridad integral con estrategias de integración SIEM, (5) fidelidad completa de implementación específica del lenguaje, y (6) publicación de código abierto de los datos, herramientas de validación y protocolos de evaluación comparativa.
En los flujos de trabajo profesionales de composición de vídeo, los artistas deben crear manualmente interacciones ambientales —como sombras, reflejos, polvo y salpicaduras— entre los sujetos en primer plano y las capas de fondo. Los modelos generativos de vídeo existentes tienen dificultades para preservar el vídeo de entrada al añadir dichos efectos, y los métodos actuales de inpaintinng de vídeo requieren costosas máscaras por fotograma o producen resultados poco plausibles. Introducimos la composición aumentada, una nueva tarea que sintetiza efectos ambientales semitransparentes y realistas condicionados por prompts de texto y capas de vídeo de entrada, preservando la escena original. Para abordar esta tarea, presentamos Over++, un marco de generación de efectos de vídeo que no realiza suposiciones sobre la pose de la cámara, la estacionariedad de la escena o la supervisión de profundidad. Construimos un conjunto de datos de efectos emparejados específico para esta tarea e introducimos una estrategia de aumento no emparejado que preserva la capacidad de edición guiada por texto. Nuestro método también admite control opcional por máscara y guiado por fotogramas clave sin requerir anotaciones densas. A pesar de entrenarse con datos limitados, Over++ produce efectos ambientales diversos y realistas, y supera a las líneas base existentes tanto en generación de efectos como en preservación de la escena.
Los métodos de interpretabilidad para modelos de lenguaje grandes (LLM) suelen derivar direcciones a partir de supervisión textual, lo que puede carecer de una base externa. Proponemos utilizar la actividad cerebral humana no como señal de entrenamiento, sino como un sistema de coordenadas para leer y dirigir los estados de los LLM. Utilizando el conjunto de datos SMN4Lang MEG, construimos un atlas cerebral a nivel de palabra de patrones de valor de bloqueo de fase (PLV) y extraemos ejes latentes mediante ICA. Validamos los ejes con léxicos independientes y etiquetas basadas en NER (usando POS/frecuencia-logarítmica como controles de verificación), luego entrenamos adaptadores ligeros que mapean los estados ocultos del LLM a estos ejes cerebrales sin ajustar finamente el LLM. Dirigir a lo largo de las direcciones derivadas del cerebro produce un eje léxico robusto (vinculado a la frecuencia) en una capa media de TinyLlama, que sobrevive a controles emparejados por perplejidad, y una comparación de sonda cerebro-vs-texto muestra mayores cambios en la frecuencia logarítmica (relativos a la sonda de texto) con menor perplejidad para el eje cerebral. Un eje función/contenido (eje 13) muestra una dirección consistente en TinyLlama, Qwen2-0.5B y GPT-2, con corroboración a nivel de texto emparejada por PPL. Los efectos en la capa 4 de TinyLlama son grandes pero inconsistentes, por lo que los tratamos como secundarios (Apéndice). La estructura del eje es estable cuando el atlas se reconstruye sin las características de cambio de incrustación de GPT o con incrustaciones de word2vec (|r|=0.64-0.95 entre ejes emparejados), reduciendo preocupaciones de circularidad. El anclaje exploratorio con fMRI sugiere una alineación potencial para el cambio de incrustación y la frecuencia logarítmica, pero los efectos son sensibles a los supuestos del modelado hemodinámico y se tratan únicamente como evidencia a nivel de población. Estos resultados respaldan una nueva interfaz: los ejes basados en neurofisiología proporcionan mecanismos interpretables y controlables para el comportamiento de los LLM.