Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos modernos de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés), como la adaptación de bajo rango (LoRA), reducen el costo de personalizar modelos de lenguaje grandes (LLMs), pero aún requieren una ejecución de optimización separada para cada conjunto de datos descendente. Presentamos Drag-and-Drop LLMs (\textit{DnD}), un generador de parámetros condicionado por prompts que elimina el entrenamiento por tarea al mapear un puñado de prompts no etiquetados directamente a actualizaciones de pesos LoRA. Un codificador de texto ligero destila cada lote de prompts en embeddings condicionales, que luego son transformados por un decodificador hiper-convolucional en cascada en el conjunto completo de matrices LoRA. Una vez entrenado en una colección diversa de pares de prompts y puntos de control, DnD produce parámetros específicos para cada tarea en segundos, logrando i) una sobrecarga hasta 12,000 veces menor que el ajuste fino completo, ii) mejoras promedio de hasta el 30\% en el rendimiento sobre los LoRAs entrenados más fuertes en pruebas de razonamiento de sentido común, matemáticas, codificación y multimodalidad no vistas, y iii) una generalización robusta entre dominios a pesar de no haber visto nunca los datos o etiquetas objetivo. Nuestros resultados demuestran que la generación de parámetros condicionada por prompts es una alternativa viable a la adaptación basada en gradientes para especializar rápidamente LLMs. Nuestro proyecto está disponible en https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
Los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) han revolucionado la recuperación de información y la respuesta a preguntas, pero los métodos tradicionales de segmentación de texto basados en fragmentos enfrentan dificultades con estructuras de documentos complejas, tablas de varias páginas, figuras incrustadas y dependencias contextuales que cruzan los límites de las páginas. Presentamos un enfoque novedoso de segmentación multimodal de documentos que aprovecha los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) para procesar documentos PDF en lotes mientras mantiene la coherencia semántica y la integridad estructural. Nuestro método procesa documentos en lotes de páginas configurables con preservación de contexto entre lotes, permitiendo un manejo preciso de tablas que abarcan varias páginas, elementos visuales incrustados y contenido procedimental. Evaluamos nuestro enfoque en un conjunto de datos curados de documentos PDF con consultas elaboradas manualmente, demostrando mejoras en la calidad de los fragmentos y en el rendimiento posterior del sistema RAG. Nuestro enfoque guiado por visión logra una mayor precisión en comparación con los sistemas RAG tradicionales, con un análisis cualitativo que muestra una preservación superior de la estructura del documento y la coherencia semántica.
En la generación visual, la complejidad cuadrática de los mecanismos de atención resulta en altos costos de memoria y computación, especialmente para secuencias de tokens más largas requeridas en la generación de imágenes de alta resolución o videos de múltiples fotogramas. Para abordar esto, investigaciones previas han explorado técnicas como la esparsificación y la cuantización. Sin embargo, estas técnicas enfrentan desafíos significativos bajo baja densidad y anchos de bits reducidos. A través de un análisis sistemático, identificamos que la dificultad central proviene de las características dispersas e irregulares de los patrones de atención visual. Por lo tanto, en lugar de introducir diseños especializados de esparsificación y cuantización para acomodar dichos patrones, proponemos una estrategia alternativa: *reorganizar* el patrón de atención para aliviar los desafíos. Inspirados por la naturaleza de agregación local de la extracción de características visuales, diseñamos una novedosa técnica **Reordenamiento de Tokens Consciente del Patrón (PARO)**, que unifica los diversos patrones de atención en un patrón en bloques amigable para el hardware. Esta unificación simplifica y mejora sustancialmente tanto la esparsificación como la cuantización. Evaluamos las compensaciones entre rendimiento y eficiencia de varias opciones de diseño y finalizamos una metodología adaptada para el patrón unificado. Nuestro enfoque, **PAROAttention**, logra la generación de videos e imágenes con métricas sin pérdida y resultados casi idénticos a los de las líneas base de precisión completa (FP), mientras opera con una densidad notablemente menor (~20%-30%) y anchos de bits (**INT8/INT4**), alcanzando una aceleración de latencia de extremo a extremo de **1.9x** a **2.7x**.
Los recientes avances en la generación de videos basada en difusión y controlable han permitido la síntesis de videos de alta calidad y coherencia temporal, sentando las bases para experiencias de juego inmersivas e interactivas. Sin embargo, los métodos actuales enfrentan limitaciones en dinámica, generalidad, consistencia a largo plazo y eficiencia, lo que restringe la capacidad de crear diversos videos de juego. Para abordar estas brechas, presentamos Hunyuan-GameCraft, un marco novedoso para la generación de videos interactivos de alta dinámica en entornos de juego. Para lograr un control de acciones de grano fino, unificamos las entradas estándar de teclado y mouse en un espacio de representación de cámara compartido, facilitando una interpolación suave entre diversas operaciones de cámara y movimiento. Luego, proponemos una estrategia de entrenamiento híbrida condicionada por el historial que extiende secuencias de video de manera autorregresiva mientras preserva la información de la escena del juego. Además, para mejorar la eficiencia de inferencia y la jugabilidad, logramos la destilación del modelo para reducir la sobrecarga computacional manteniendo la consistencia en secuencias temporales largas, haciéndolo adecuado para su implementación en tiempo real en entornos interactivos complejos. El modelo se entrena en un conjunto de datos a gran escala que comprende más de un millón de grabaciones de juego en más de 100 juegos AAA, asegurando una amplia cobertura y diversidad, y luego se ajusta finamente en un conjunto de datos sintéticos cuidadosamente anotados para mejorar la precisión y el control. Los datos de escenas de juego curadas mejoran significativamente la fidelidad visual, el realismo y la controlabilidad de las acciones. Experimentos extensos demuestran que Hunyuan-GameCraft supera significativamente a los modelos existentes, avanzando en el realismo y la jugabilidad de la generación de videos de juego interactivos.
Coordinar múltiples agentes corporizados en entornos dinámicos sigue siendo un desafío central en la inteligencia artificial, requiriendo tanto razonamiento basado en percepción como estrategias de cooperación escalables. Si bien trabajos recientes han aprovechado modelos de lenguaje de gran escala (LLMs) para la planificación multiagente, pocos han comenzado a explorar modelos de visión-lenguaje (VLMs) para el razonamiento visual. Sin embargo, estos enfoques basados en VLMs siguen siendo limitados en su soporte para diversos tipos de corporización. En este trabajo, presentamos VIKI-Bench, el primer benchmark jerárquico diseñado para la cooperación multiagente corporizada, que incluye tres niveles estructurados: activación de agentes, planificación de tareas y percepción de trayectorias. VIKI-Bench incorpora diversas corporizaciones de robots, observaciones visuales multi-vista y señales de supervisión estructuradas para evaluar el razonamiento basado en entradas visuales. Para demostrar la utilidad de VIKI-Bench, proponemos VIKI-R, un marco de dos etapas que ajusta un modelo de visión-lenguaje (VLM) preentrenado utilizando demostraciones anotadas con Chain-of-Thought, seguido de aprendizaje por refuerzo bajo señales de recompensa multi-nivel. Nuestros extensos experimentos muestran que VIKI-R supera significativamente a los métodos de referencia en todos los niveles de tareas. Además, demostramos que el aprendizaje por refuerzo permite la emergencia de patrones de cooperación composicional entre agentes heterogéneos. En conjunto, VIKI-Bench y VIKI-R ofrecen un banco de pruebas unificado y un método para avanzar en la cooperación multiagente basada en visión en sistemas de IA corporizada.
Los sistemas de conversión de texto a voz (TTS) de última generación logran un alto nivel de naturalidad en entornos monolingües; sin embargo, sintetizar habla con acentos multilingües correctos (especialmente para lenguas índicas) y emociones relevantes al contexto sigue presentando dificultades debido a las discrepancias en los matices culturales en los marcos actuales. Este artículo introduce una nueva arquitectura TTS que integra el acento junto con la preservación de la transliteración y un modelado de emociones a múltiples escalas, especialmente ajustada para el hindi y el acento del inglés indio. Nuestro enfoque extiende el modelo Parler-TTS mediante la integración de una arquitectura híbrida codificador-decodificador específica para la alineación de fonemas, capas de incrustación de emociones sensibles a la cultura entrenadas con corpus de hablantes nativos, así como la incorporación de un cambio dinámico de acento con cuantización vectorial residual. Las pruebas cuantitativas demuestran una mejora del 23.7% en la precisión del acento (reducción de la tasa de error de palabras del 15.4% al 11.8%) y una precisión del 85.3% en el reconocimiento de emociones por parte de oyentes nativos, superando los baselines de METTS y VECL-TTS. La novedad del sistema radica en su capacidad para mezclar códigos en tiempo real, generando enunciados como "Namaste, hablemos de <frase en hindi>" con cambios de acento ininterrumpidos mientras se mantiene la consistencia emocional. La evaluación subjetiva con 200 usuarios reportó una puntuación media de opinión (MOS) de 4.2/5 en cuanto a corrección cultural, significativamente mejor que los sistemas multilingües existentes (p<0.01). Esta investigación hace que la síntesis translingüe sea más viable al mostrar la separación escalable de acento y emoción, con aplicaciones directas en el sector de tecnología educativa (EdTech) y software de accesibilidad en el sur de Asia.
La síntesis de panoramas 3D es una tarea prometedora pero desafiante que requiere una apariencia visual y una geometría de alta calidad y diversa en el contenido omnidireccional generado. Los métodos existentes aprovechan los ricos conocimientos previos de imágenes de modelos fundacionales 2D preentrenados para sortear la escasez de datos panorámicos 3D, pero la incompatibilidad entre los panoramas 3D y las vistas únicas 2D limita su efectividad. En este trabajo, demostramos que al aplicar la sincronización de múltiples planos a los operadores de los modelos fundacionales 2D, sus capacidades pueden extenderse sin problemas al dominio omnidireccional. Basándonos en este diseño, presentamos además DreamCube, un modelo de difusión RGB-D de múltiples planos para la generación de panoramas 3D, que maximiza la reutilización de los conocimientos previos de los modelos fundacionales 2D para lograr apariencias diversas y geometría precisa, manteniendo la consistencia multivista. Experimentos exhaustivos demuestran la efectividad de nuestro enfoque en la generación de imágenes panorámicas, la estimación de profundidad panorámica y la generación de escenas 3D.
En este informe, presentamos Hunyuan3D 2.5, un conjunto robusto de modelos de difusión 3D diseñado para generar activos 3D texturizados de alta fidelidad y detallados. Hunyuan3D 2.5 sigue el pipeline de dos etapas de su versión anterior, Hunyuan3D 2.0, mientras demuestra avances significativos tanto en la generación de formas como de texturas. En cuanto a la generación de formas, introducimos un nuevo modelo base de formas, LATTICE, que se entrena con conjuntos de datos de alta calidad escalados, tamaño de modelo y capacidad de cómputo. Nuestro modelo más grande alcanza los 10 mil millones de parámetros y genera formas 3D nítidas y detalladas con un seguimiento preciso entre imagen y 3D, manteniendo la superficie de la malla limpia y suave, lo que reduce significativamente la brecha entre las formas 3D generadas y las creadas manualmente. En cuanto a la generación de texturas, se ha mejorado con renderizado basado en física (PBR) mediante una arquitectura de múltiples vistas novedosa, extendida a partir del modelo Paint de Hunyuan3D 2.0. Nuestra evaluación exhaustiva muestra que Hunyuan3D 2.5 supera significativamente a los métodos anteriores tanto en la generación de formas como en la generación de texturas de extremo a extremo.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) destacan en la comprensión multimodal, pero su decodificación basada únicamente en texto los obliga a verbalizar el razonamiento visual, lo que limita su rendimiento en tareas que requieren imaginación visual. Intentos recientes entrenan a los VLMs para generar imágenes explícitas, pero el extenso preentrenamiento en generación de imágenes a menudo perjudica su capacidad de razonamiento. Inspirados por la forma en que los humanos razonan con imágenes mentales—la construcción y manipulación interna de señales visuales—investigamos si los VLMs pueden razonar a través de trayectorias multimodales intercaladas sin producir imágenes explícitas. Con este fin, presentamos un marco de Imagen Mental de Máquina, denominado Mirage, que aumenta la decodificación de los VLMs con tokens visuales latentes junto con texto ordinario. Concretamente, cuando el modelo decide "pensar visualmente", reformula sus estados ocultos como tokens siguientes, continuando así una trayectoria multimodal sin generar imágenes a nivel de píxeles. Comenzamos supervisando los tokens latentes mediante destilación a partir de incrustaciones de imágenes de referencia, luego cambiamos a supervisión basada únicamente en texto para alinear estrechamente la trayectoria latente con el objetivo de la tarea. Una etapa posterior de aprendizaje por refuerzo mejora aún más la capacidad de razonamiento multimodal. Experimentos en diversos puntos de referencia demuestran que Mirage desbloquea un razonamiento multimodal más sólido sin la generación explícita de imágenes.
La comprensión y generación unificada de imágenes ha surgido como un paradigma prometedor en la inteligencia artificial multimodal. A pesar de los avances recientes, el diseño arquitectónico óptimo para tales modelos unificados sigue siendo un desafío abierto. En este trabajo, comenzamos analizando los comportamientos de alineación de modalidades en modelos expertos específicos para tareas de comprensión y generación, así como en los modelos unificados actuales. Nuestro análisis revela una observación crucial: las tareas de comprensión se benefician de una alineación de modalidades que aumenta progresivamente a lo largo de la profundidad de la red, lo que ayuda a construir información semántica para una mejor comprensión; en contraste, las tareas de generación siguen una tendencia diferente: la alineación de modalidades aumenta en las capas iniciales pero disminuye en las capas profundas para recuperar detalles espaciales. Estos patrones divergentes de alineación crean un conflicto fundamental en los backbones de Transformer completamente compartidos, donde un flujo representacional uniforme a menudo conduce a compromisos de rendimiento en ambas tareas. Motivados por este hallazgo, presentamos UniFork, una arquitectura novedosa en forma de Y que comparte las capas superficiales para el aprendizaje de representaciones entre tareas, mientras emplea ramas específicas para cada tarea en las capas más profundas para evitar interferencias entre tareas. Este diseño equilibra eficazmente el aprendizaje compartido y la especialización por tarea. A través de extensos experimentos de ablación, demostramos que UniFork supera consistentemente a las arquitecturas convencionales de Transformer completamente compartidas, y logra un rendimiento igual o mejor que los modelos específicos para cada tarea.
El contenido 3D generado por IA (AIGC) es un campo apasionante que ha acelerado significativamente la creación de modelos 3D en los ámbitos de los videojuegos, el cine y el diseño. A pesar del desarrollo de varios modelos innovadores que han revolucionado la generación 3D, este campo sigue siendo en gran medida accesible solo para investigadores, desarrolladores y diseñadores debido a las complejidades involucradas en la recopilación, procesamiento y entrenamiento de modelos 3D. Para abordar estos desafíos, presentamos Hunyuan3D 2.1 como un caso de estudio en este tutorial. Este tutorial ofrece una guía completa y paso a paso sobre el procesamiento de datos 3D, el entrenamiento de un modelo generativo 3D y la evaluación de su rendimiento utilizando Hunyuan3D 2.1, un sistema avanzado para producir activos 3D de alta resolución y texturizados. El sistema consta de dos componentes principales: Hunyuan3D-DiT para la generación de formas y Hunyuan3D-Paint para la síntesis de texturas. Exploraremos todo el flujo de trabajo, incluyendo la preparación de datos, la arquitectura del modelo, las estrategias de entrenamiento, las métricas de evaluación y la implementación. Al concluir este tutorial, tendrás el conocimiento necesario para ajustar o desarrollar un modelo generativo 3D robusto adecuado para aplicaciones en videojuegos, realidad virtual y diseño industrial.
Los modelos modernos de lenguaje multimodal de gran escala (MLLMs) pueden razonar sobre videos de una hora de duración, pero su caché clave-valor (KV) crece linealmente con el tiempo, superando rápidamente la memoria fija de teléfonos, gafas de realidad aumentada y robots de borde. Los esquemas de compresión anteriores asumen que el video completo y la consulta del usuario están disponibles sin conexión o deben construir primero la caché completa, por lo que la memoria sigue escalando con la longitud de la transmisión. InfiniPot-V es el primer marco de trabajo agnóstico a la consulta y sin entrenamiento que impone un límite de memoria fijo e independiente de la longitud para la comprensión de videos en tiempo real. Durante la codificación del video, monitorea la caché y, una vez que se alcanza un umbral establecido por el usuario, ejecuta una pasada de compresión ligera que (i) elimina tokens temporalmente redundantes mediante la métrica de Redundancia en el Eje Temporal (TaR) y (ii) conserva tokens semánticamente significativos mediante el ranking de Norma de Valor (VaN). En cuatro MLLMs de código abierto y cuatro benchmarks de videos largos y dos de videos en tiempo real, InfiniPot-V reduce la memoria máxima de GPU hasta en un 94%, mantiene la generación en tiempo real y coincide o supera la precisión de la caché completa, incluso en diálogos de múltiples turnos. Al eliminar el cuello de botella de la caché KV sin necesidad de reentrenamiento o conocimiento previo de la consulta, InfiniPot-V cierra la brecha para los asistentes de video en tiempo real en dispositivos locales.
Una promesa que los modelos Visión-Lenguaje-Acción (VLA) ofrecen sobre el aprendizaje por imitación tradicional en robótica es aprovechar las amplias capacidades de generalización de los grandes modelos de Visión-Lenguaje (VLM) para producir políticas robóticas versátiles y "generalistas". Sin embargo, las evaluaciones actuales de los VLA siguen siendo insuficientes. Los puntos de referencia tradicionales del aprendizaje por imitación no son adecuados debido a la falta de instrucciones de lenguaje. Los nuevos puntos de referencia para los VLA que incorporan lenguaje suelen venir con tareas de evaluación limitadas y no pretenden investigar cuánto contribuye realmente el preentrenamiento de los VLM a las capacidades de generalización de la política robótica resultante. Mientras tanto, gran parte de la investigación se basa en configuraciones de robots del mundo real diseñadas de forma aislada por diferentes instituciones, lo que crea una barrera para la reproducibilidad y accesibilidad. Para abordar esta brecha, presentamos un conjunto unificado de 50 tareas basadas en simulación, distribuidas en 10 subcategorías que abarcan instrucciones de lenguaje, visión y objetos. Evaluamos sistemáticamente varias arquitecturas VLA de última generación en este conjunto para comprender su capacidad de generalización. Nuestros resultados muestran que, aunque los modelos base VLM dotan a los VLA de una comprensión perceptual robusta y una planificación de alto nivel, a lo que nos referimos como buenas intenciones, esto no se traduce de manera confiable en una ejecución motora precisa: cuando se enfrentan a observaciones fuera de distribución, las políticas suelen exhibir intenciones coherentes, pero fallan en la ejecución de acciones. Además, el ajuste fino con datos de acción puede erosionar las habilidades de razonamiento generalista del VLM original. Publicamos nuestro conjunto de tareas y el código de evaluación para servir como un punto de referencia estandarizado para futuros VLA y para impulsar la investigación en cerrar la brecha entre percepción y acción. Más información, incluido el código fuente, se puede encontrar en https://ai4ce.github.io/INT-ACT/.
Un simulador de tráfico ideal replica el viaje realista a largo plazo de punto a punto que experimenta un sistema de conducción autónoma durante su despliegue. Los modelos y puntos de referencia anteriores se centran en la simulación de movimiento en bucle cerrado para los agentes iniciales en una escena. Esto es problemático para la simulación a largo plazo. Los agentes entran y salen de la escena a medida que el vehículo ego ingresa en nuevas regiones. Proponemos InfGen, un modelo unificado de predicción del siguiente token que realiza una simulación de movimiento en bucle cerrado intercalada con la generación de escenas. InfGen cambia automáticamente entre el modo de simulación de movimiento en bucle cerrado y el modo de generación de escenas. Permite una simulación estable de despliegue a largo plazo. InfGen alcanza el estado del arte en la simulación de tráfico a corto plazo (9s) y supera significativamente a todos los demás métodos en la simulación a largo plazo (30s). El código y el modelo de InfGen se publicarán en https://orangesodahub.github.io/InfGen.
La combinación de modelos expertos preentrenados ofrece un potencial considerable para el razonamiento multimodal escalable, pero la construcción de un marco unificado sigue siendo un desafío debido a la creciente diversidad de modalidades de entrada y la complejidad de las tareas. Por ejemplo, el diagnóstico médico requiere un razonamiento preciso sobre tablas clínicas estructuradas, mientras que la previsión financiera depende de la interpretación de datos basados en gráficos para realizar predicciones informadas. Para abordar este desafío, presentamos MEXA, un marco libre de entrenamiento que realiza una agregación consciente de la modalidad y la tarea de múltiples modelos expertos para permitir un razonamiento multimodal efectivo en diversos y distintos dominios. MEXA selecciona dinámicamente modelos expertos en función de la modalidad de entrada y las demandas de razonamiento específicas de la tarea (es decir, habilidades). Cada modelo experto, especializado en un par de modalidad y tarea, genera salidas de razonamiento textual interpretables. MEXA luego agrega y razona sobre estas salidas utilizando un Modelo de Razonamiento de Gran Escala (LRM, por sus siglas en inglés) para producir la respuesta final. Este diseño modular permite un razonamiento multimodal flexible y transparente en diversos dominios sin sobrecargas adicionales de entrenamiento. Evaluamos exhaustivamente nuestro enfoque en diversos puntos de referencia multimodales, incluyendo Razonamiento en Video, Razonamiento en Audio, Comprensión 3D y Preguntas y Respuestas Médicas. MEXA ofrece consistentemente mejoras en el rendimiento en comparación con líneas base multimodales sólidas, destacando la efectividad y amplia aplicabilidad de nuestra selección y agregación basada en expertos en diversas tareas de razonamiento multimodal.
La generación de resúmenes imparciales en entornos del mundo real, como la síntesis de perspectivas políticas, sigue siendo una aplicación crucial de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los marcos de evaluación existentes dependen de métricas tradicionales para medir atributos clave como la cobertura y la fidelidad, sin verificar su aplicabilidad, y los esfuerzos para desarrollar resumidores mejorados aún están en etapas incipientes. Abordamos estas brechas mediante (1) la identificación de métricas confiables para medir la calidad de los resúmenes de perspectivas, y (2) la investigación de la eficacia de los métodos basados en LLMs más allá de la inferencia de cero disparos. Específicamente, construimos un conjunto de pruebas para evaluar la confiabilidad de las métricas utilizando anotaciones humanas y demostramos que las métricas tradicionales tienen un rendimiento inferior en comparación con las métricas basadas en modelos de lenguaje, que resultan ser evaluadores sólidos. Utilizando estas métricas, mostramos que los métodos basados en reordenamiento producen resultados sólidos, y que el ajuste de preferencias con datos generados sintéticamente y etiquetados mediante reordenamiento mejora aún más el rendimiento. Nuestros hallazgos tienen como objetivo contribuir a la evaluación confiable y al desarrollo de métodos de síntesis de perspectivas.
La inserción de marcas de agua en las salidas de modelos generativos ha surgido como un enfoque prometedor para rastrear su procedencia. A pesar del interés significativo en los modelos de generación de imágenes autoregresivos y su potencial para el uso indebido, ningún trabajo previo ha intentado marcar sus salidas a nivel de tokens. En este trabajo, presentamos el primer enfoque de este tipo al adaptar técnicas de marcas de agua para modelos de lenguaje a este contexto. Identificamos un desafío clave: la falta de consistencia inversa del ciclo (RCC, por sus siglas en inglés), en la que la retokenización de los tokens de imágenes generadas altera significativamente la secuencia de tokens, borrando efectivamente la marca de agua. Para abordar este problema y hacer que nuestro método sea robusto frente a transformaciones comunes de imágenes, compresión neuronal y ataques de eliminación, introducimos (i) un procedimiento personalizado de ajuste fino de tokenizador-detokenizador que mejora la RCC, y (ii) una capa complementaria de sincronización de marcas de agua. Como demuestran nuestros experimentos, nuestro enfoque permite una detección confiable y robusta de marcas de agua con valores p teóricamente fundamentados.
La inversión de modelos de lenguaje busca recuperar indicaciones ocultas utilizando únicamente las salidas del modelo de lenguaje. Esta capacidad tiene implicaciones para la seguridad y la rendición de cuentas en los despliegues de modelos de lenguaje, como la filtración de información privada desde el mensaje del sistema de un modelo de lenguaje protegido por API. Proponemos un nuevo método: la inversión de indicaciones a partir de secuencias de logprobs (PILS, por sus siglas en inglés), que recupera indicaciones ocultas extrayendo pistas de las probabilidades del siguiente token del modelo a lo largo de múltiples pasos de generación. Nuestro método se basa en una idea clave: las salidas vectoriales de un modelo de lenguaje ocupan un subespacio de baja dimensionalidad. Esto nos permite comprimir sin pérdidas la distribución completa de probabilidades del siguiente token a lo largo de varios pasos de generación utilizando un mapeo lineal, lo que permite utilizar más información de salida para la inversión. Nuestro enfoque logra mejoras significativas respecto a los métodos anteriores de vanguardia para recuperar indicaciones ocultas, alcanzando tasas de recuperación exacta entre 2 y 3.5 veces más altas en conjuntos de prueba, aumentando en un caso la tasa de recuperación del 17% al 60%. Nuestro método también exhibe un comportamiento de generalización sorprendentemente bueno; por ejemplo, un inversor entrenado con 16 pasos de generación obtiene entre 5 y 27 puntos más en la recuperación de indicaciones cuando aumentamos el número de pasos a 32 durante la prueba. Además, demostramos un fuerte desempeño de nuestro método en la tarea más desafiante de recuperar mensajes del sistema ocultos. También analizamos el papel de la repetición textual en la recuperación de indicaciones y proponemos un nuevo método para la transferencia de modelos entre familias para inversores basados en logits. Nuestros hallazgos muestran que las probabilidades del siguiente token son una superficie de ataque considerablemente más vulnerable para los ataques de inversión de lo que se conocía anteriormente.