ByOpenAI, Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, Aleksander Mądry, Alex Baker-Whitcomb, Alex Beutel, Alex Borzunov, Alex Carney, Alex Chow, Alex Kirillov, Alex Nichol, Alex Paino, Alex Renzin, Alex Tachard Passos, Alexander Kirillov, Alexi Christakis, Alexis Conneau, Ali Kamali, Allan Jabri, Allison Moyer, Allison Tam, Amadou Crookes, Amin Tootoochian, Amin Tootoonchian, Ananya Kumar, Andrea Vallone, Andrej Karpathy, Andrew Braunstein, Andrew Cann, Andrew Codispoti, Andrew Galu, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Angela Baek, Angela Jiang, Antoine Pelisse, Antonia Woodford, Anuj Gosalia, Arka Dhar, Ashley Pantuliano, Avi Nayak, Avital Oliver, Barret Zoph, Behrooz Ghorbani, Ben Leimberger, Ben Rossen, Ben Sokolowsky, Ben Wang, Benjamin Zweig, Beth Hoover, Blake Samic, Bob McGrew, Bobby Spero, Bogo Giertler, Bowen Cheng, Brad Lightcap, Brandon Walkin, Brendan Quinn, Brian Guarraci, Brian Hsu, Bright Kellogg, Brydon Eastman, Camillo Lugaresi, Carroll Wainwright, Cary Bassin, Cary Hudson, Casey Chu, Chad Nelson, Chak Li, Chan Jun Shern, Channing Conger, Charlotte Barette, Chelsea Voss, Chen Ding, Cheng Lu, Chong Zhang, Chris Beaumont, Chris Hallacy, Chris Koch, Christian Gibson, Christina Kim, Christine Choi, Christine McLeavey, Christopher Hesse, Claudia Fischer, Clemens Winter, Coley Czarnecki, Colin Jarvis, Colin Wei, Constantin Koumouzelis, Dane Sherburn, Daniel Kappler, Daniel Levin, Daniel Levy, David Carr, David Farhi, David Mely, David Robinson, David Sasaki, Denny Jin, Dev Valladares, Dimitris Tsipras, Doug Li, Duc Phong Nguyen, Duncan Findlay, Edede Oiwoh, Edmund Wong, Ehsan Asdar, Elizabeth Proehl, Elizabeth Yang, Eric Antonow, Eric Kramer, Eric Peterson, Eric Sigler, Eric Wallace, Eugene Brevdo, Evan Mays, Farzad Khorasani, Felipe Petroski Such, Filippo Raso, Francis Zhang, Fred von Lohmann, Freddie Sulit, Gabriel Goh, Gene Oden, Geoff Salmon, Giulio Starace, Greg Brockman, Hadi Salman, Haiming Bao, Haitang Hu, Hannah Wong, Haoyu Wang, Heather Schmidt, Heather Whitney, Heewoo Jun, Hendrik Kirchner, Henrique Ponde de Oliveira Pinto, Hongyu Ren, Huiwen Chang, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian O'Connell, Ian Osband, Ian Silber, Ian Sohl, Ibrahim Okuyucu, Ikai Lan, Ilya Kostrikov, Ilya Sutskever, Ingmar Kanitscheider, Ishaan Gulrajani, Jacob Coxon, Jacob Menick, Jakub Pachocki, James Aung, James Betker, James Crooks, James Lennon, Jamie Kiros, Jan Leike, Jane Park, Jason Kwon, Jason Phang, Jason Teplitz, Jason Wei, Jason Wolfe, Jay Chen, Jeff Harris, Jenia Varavva, Jessica Gan Lee, Jessica Shieh, Ji Lin, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joanne Jang, Joaquin Quinonero Candela, Joe Beutler, Joe Landers, Joel Parish, Johannes Heidecke, John Schulman, Jonathan Lachman, Jonathan McKay, Jonathan Uesato, Jonathan Ward, Jong Wook Kim, Joost Huizinga, Jordan Sitkin, Jos Kraaijeveld, Josh Gross, Josh Kaplan, Josh Snyder, Joshua Achiam, Joy Jiao, Joyce Lee, Juntang Zhuang, Justyn Harriman, Kai Fricke, Kai Hayashi, Karan Singhal, Katy Shi, Kavin Karthik, Kayla Wood, Kendra Rimbach, Kenny Hsu, Kenny Nguyen, Keren Gu-Lemberg, Kevin Button, Kevin Liu, Kiel Howe, Krithika Muthukumar, Kyle Luther, Lama Ahmad, Larry Kai, Lauren Itow, Lauren Workman, Leher Pathak, Leo Chen, Li Jing, Lia Guy, Liam Fedus, Liang Zhou, Lien Mamitsuka, Lilian Weng, Lindsay McCallum, Lindsey Held, Long Ouyang, Louis Feuvrier, Lu Zhang, Lukas Kondraciuk, Lukasz Kaiser, Luke Hewitt, Luke Metz, Lyric Doshi, Mada Aflak, Maddie Simens, Madelaine Boyd, Madeleine Thompson, Marat Dukhan, Mark Chen, Mark Gray, Mark Hudnall, Marvin Zhang, Marwan Aljubeh, Mateusz Litwin, Matthew Zeng, Max Johnson, Maya Shetty, Mayank Gupta, Meghan Shah, Mehmet Yatbaz, Meng Jia Yang, Mengchao Zhong, Mia Glaese, Mianna Chen, Michael Janner, Michael Lampe, Michael Petrov, Michael Wu, Michele Wang, Michelle Fradin, Michelle Pokrass, Miguel Castro, Miguel Oom Temudo de Castro, Mikhail Pavlov, Miles Brundage, Miles Wang, Minal Khan, Mira Murati, Mo Bavarian, Molly Lin, Murat Yesildal, Nacho Soto, Natalia Gimelshein, Natalie Cone, Natalie Staudacher, Natalie Summers, Natan LaFontaine, Neil Chowdhury, Nick Ryder, Nick Stathas, Nick Turley, Nik Tezak, Niko Felix, Nithanth Kudige, Nitish Keskar, Noah Deutsch, Noel Bundick, Nora Puckett, Ofir Nachum, Ola Okelola, Oleg Boiko, Oleg Murk, Oliver Jaffe, Olivia Watkins, Olivier Godement, Owen Campbell-Moore, Patrick Chao, Paul McMillan, Pavel Belov, Peng Su, Peter Bak, Peter Bakkum, Peter Deng, Peter Dolan, Peter Hoeschele, Peter Welinder, Phil Tillet, Philip Pronin, Philippe Tillet, Prafulla Dhariwal, Qiming Yuan, Rachel Dias, Rachel Lim, Rahul Arora, Rajan Troll, Randall Lin, Rapha Gontijo Lopes, Raul Puri, Reah Miyara, Reimar Leike, Renaud Gaubert, Reza Zamani, Ricky Wang, Rob Donnelly, Rob Honsby, Rocky Smith, Rohan Sahai, Rohit Ramchandani, Romain Huet, Rory Carmichael, Rowan Zellers, Roy Chen, Ruby Chen, Ruslan Nigmatullin, Ryan Cheu, Saachi Jain, Sam Altman, Sam Schoenholz, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Sara Culver, Scott Ethersmith, Scott Gray, Sean Grove, Sean Metzger, Shamez Hermani, Shantanu Jain, Shengjia Zhao, Sherwin Wu, Shino Jomoto, Shirong Wu, Shuaiqi, Xia, Sonia Phene, Spencer Papay, Srinivas Narayanan, Steve Coffey, Steve Lee, Stewart Hall, Suchir Balaji, Tal Broda, Tal Stramer, Tao Xu, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Cunninghman, Thomas Degry, Thomas Dimson, Thomas Raoux, Thomas Shadwell, Tianhao Zheng, Todd Underwood, Todor Markov, Toki Sherbakov, Tom Rubin, Tom Stasi, Tomer Kaftan, Tristan Heywood, Troy Peterson, Tyce Walters, Tyna Eloundou, Valerie Qi, Veit Moeller, Vinnie Monaco, Vishal Kuo, Vlad Fomenko, Wayne Chang, Weiyi Zheng, Wenda Zhou, Wesam Manassra, Will Sheu, Wojciech Zaremba, Yash Patil, Yilei Qian, Yongjik Kim, Youlong Cheng, Yu Zhang, Yuchen He, Yuchen Zhang, Yujia Jin, Yunxing Dai, Yury Malkov
87
5
GPT-4o es un modelo omni autoregresivo que acepta como entrada cualquier combinación de texto, audio, imagen y video, y genera cualquier combinación de salidas de texto, audio e imagen. Está entrenado de extremo a extremo a través de texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo cual es similar al tiempo de respuesta humano en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas no ingleses, siendo además mucho más rápido y un 50\% más económico en la API. GPT-4o es especialmente superior en comprensión de visión y audio en comparación con modelos existentes. En línea con nuestro compromiso de construir IA de manera segura y consistente con nuestros compromisos voluntarios con la Casa Blanca, compartimos la Tarjeta del Sistema de GPT-4o, que incluye nuestras evaluaciones del Marco de Preparación. En esta Tarjeta del Sistema, ofrecemos una mirada detallada a las capacidades, limitaciones y evaluaciones de seguridad de GPT-4o en múltiples categorías, centrándonos en el habla a habla mientras también evaluamos las capacidades de texto e imagen, y las medidas que hemos implementado para garantizar que el modelo sea seguro y alineado. También incluimos evaluaciones de terceros sobre capacidades peligrosas, así como discusión sobre posibles impactos sociales de las capacidades de texto y visión de GPT-4o.
ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas
47
2
Presentamos Bielik 7B v0.1, un modelo generativo de texto de 7 mil millones de parámetros para el procesamiento del lenguaje polaco. Entrenado en corpus polacos seleccionados, este modelo aborda desafíos clave en el desarrollo de modelos de lenguaje a través de técnicas innovadoras. Estas incluyen la Pérdida de Entropía Cruzada de Instrucción Ponderada, que equilibra el aprendizaje de diferentes tipos de instrucciones, y la Tasa de Aprendizaje Adaptativa, que ajusta dinámicamente la tasa de aprendizaje según el progreso del entrenamiento. Para evaluar el rendimiento, creamos el Open PL LLM Leaderboard y Polish MT-Bench, marcos novedosos que evalúan diversas tareas de PNL y habilidades conversacionales. Bielik 7B v0.1 demuestra mejoras significativas, logrando un aumento de 9 puntos porcentuales en la puntuación promedio en comparación con Mistral-7B-v0.1 en la tarea de RAG Reader. También destaca en el Polish MT-Bench, especialmente en las categorías de Razonamiento (6.15/10) e Interpretación de Roles (7.83/10). Este modelo representa un avance sustancial en la IA del lenguaje polaco, ofreciendo una herramienta poderosa para diversas aplicaciones lingüísticas y estableciendo nuevos estándares en el campo.
ByChien Van Nguyen, Xuan Shen, Ryan Aponte, Yu Xia, Samyadeep Basu, Zhengmian Hu, Jian Chen, Mihir Parmar, Sasidhar Kunapuli, Joe Barrow, Junda Wu, Ashish Singh, Yu Wang, Jiuxiang Gu, Franck Dernoncourt, Nesreen K. Ahmed, Nedim Lipka, Ruiyi Zhang, Xiang Chen, Tong Yu, Sungchul Kim, Hanieh Deilamsalehy, Namyong Park, Mike Rimer, Zhehao Zhang, Huanrui Yang, Ryan A. Rossi, Thien Huu Nguyen
46
3
Los Modelos de Lenguaje Pequeños (SLMs) han adquirido una importancia creciente debido a su eficiencia y rendimiento para llevar a cabo diversas tareas lingüísticas con recursos computacionales mínimos, lo que los hace ideales para distintos entornos, incluyendo dispositivos móviles, dispositivos de borde, entre otros. En este artículo, presentamos un estudio exhaustivo sobre los SLMs, centrándonos en sus arquitecturas, técnicas de entrenamiento y técnicas de compresión de modelos. Proponemos una nueva taxonomía para categorizar los métodos utilizados para optimizar los SLMs, incluyendo técnicas de compresión, poda y cuantificación de modelos. Resumimos los conjuntos de datos de referencia que son útiles para evaluar los SLMs junto con las métricas de evaluación comúnmente utilizadas. Además, destacamos los principales desafíos abiertos que aún deben abordarse. Nuestro estudio tiene como objetivo servir como un recurso valioso para investigadores y profesionales interesados en desarrollar e implementar modelos de lenguaje pequeños pero eficientes.
Los agentes digitales capaces de automatizar tareas informáticas complejas han atraído considerable atención debido a su inmenso potencial para mejorar la interacción humano-computadora. Sin embargo, los métodos de agentes existentes presentan deficiencias en sus capacidades de generalización y especialización, especialmente en el manejo de tareas informáticas de final abierto en entornos del mundo real. Inspirados en la rica funcionalidad de la tienda de aplicaciones, presentamos AgentStore, una plataforma escalable diseñada para integrar dinámicamente agentes heterogéneos para automatizar tareas informáticas. AgentStore capacita a los usuarios para integrar agentes de terceros, permitiendo que el sistema enriquezca continuamente sus capacidades y se adapte a sistemas operativos en evolución rápida. Además, proponemos un núcleo novedoso, MetaAgente, con la estrategia AgentToken para gestionar eficientemente diversos agentes y utilizar sus habilidades especializadas y generalistas tanto para tareas específicas de dominio como para tareas a nivel de sistema. Experimentos extensos en tres desafiantes benchmarks demuestran que AgentStore supera las limitaciones de sistemas anteriores con capacidades limitadas, logrando particularmente una mejora significativa del 11.21\% al 23.85% en el benchmark OSWorld, más que duplicando los resultados previos. Resultados cuantitativos y cualitativos exhaustivos demuestran además la capacidad de AgentStore para mejorar sistemas de agentes tanto en generalización como en especialización, subrayando su potencial para desarrollar un asistente informático generalista especializado. Todos nuestros códigos estarán disponibles públicamente en https://chengyou-jia.github.io/AgentStore-Home.
ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He
30
3
El análisis de documentos es esencial para convertir documentos no estructurados y semi-estructurados, como contratos, trabajos académicos y facturas, en datos estructurados y legibles por máquina. El análisis de documentos extrae datos estructurados confiables de entradas no estructuradas, brindando una gran conveniencia para numerosas aplicaciones. Especialmente con los logros recientes en Modelos de Lenguaje Grandes, el análisis de documentos desempeña un papel indispensable tanto en la construcción de bases de conocimiento como en la generación de datos de entrenamiento. Esta encuesta presenta una revisión exhaustiva del estado actual del análisis de documentos, abarcando metodologías clave, desde sistemas de canalización modular hasta modelos de extremo a extremo impulsados por grandes modelos de visión y lenguaje. Se examinan en detalle componentes fundamentales como la detección de diseño, extracción de contenido (incluyendo texto, tablas y expresiones matemáticas) e integración de datos multimodales. Además, este documento analiza los desafíos enfrentados por los sistemas modulares de análisis de documentos y los modelos de visión y lenguaje al manejar diseños complejos, integrar múltiples módulos y reconocer texto de alta densidad. Se enfatiza la importancia de desarrollar conjuntos de datos más grandes y diversos y se esbozan las futuras direcciones de investigación.
ByHaozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa
23
2
Presentamos MarDini, una nueva familia de modelos de difusión de video que integran las ventajas de la auto-regresión enmascarada (MAR) en un marco unificado de modelo de difusión (DM). Aquí, MAR se encarga de la planificación temporal, mientras que DM se centra en la generación espacial en un diseño de red asimétrica: i) un modelo de planificación basado en MAR que contiene la mayoría de los parámetros genera señales de planificación para cada fotograma enmascarado utilizando una entrada de baja resolución; ii) un modelo de generación ligero utiliza estas señales para producir fotogramas de alta resolución a través de la desenmascaración por difusión. El MAR de MarDini permite la generación de video condicionada a cualquier número de fotogramas enmascarados en cualquier posición de fotograma: un solo modelo puede manejar la interpolación de video (por ejemplo, enmascaramiento de fotogramas intermedios), generación de imagen a video (por ejemplo, enmascaramiento desde el segundo fotograma en adelante) y expansión de video (por ejemplo, enmascaramiento de la mitad de los fotogramas). El diseño eficiente asigna la mayoría de los recursos computacionales al modelo de planificación de baja resolución, lo que hace factible a gran escala una atención espacio-temporal computacionalmente costosa pero importante. MarDini establece un nuevo estado del arte para la interpolación de video; mientras tanto, en pocos pasos de inferencia, genera videos de manera eficiente al nivel de modelos avanzados mucho más costosos de imagen a video.
ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
19
2
Aunque se han logrado avances significativos en el desarrollo de modelos de lenguaje grandes de largo contexto (LLMs, por sus siglas en inglés), la calidad comprometida de los datos sintetizados por LLM para el ajuste fino supervisado (SFT) a menudo afecta el rendimiento de largo contexto de los modelos SFT y conlleva limitaciones inherentes. En principio, el aprendizaje por refuerzo (RL) con señales de recompensa adecuadas puede mejorar aún más las capacidades de los modelos. Sin embargo, cómo obtener recompensas confiables en escenarios de largo contexto sigue sin explorarse. Con este fin, proponemos LongReward, un método novedoso que utiliza un LLM listo para usar para proporcionar recompensas a las respuestas del modelo de largo contexto desde cuatro dimensiones valoradas por humanos: utilidad, lógica, fidelidad y completitud, cada una con un proceso de evaluación cuidadosamente diseñado. Al combinar LongReward y el algoritmo de RL fuera de línea DPO, podemos mejorar de manera efectiva los modelos SFT de largo contexto. Nuestros experimentos indican que LongReward no solo mejora significativamente el rendimiento de largo contexto de los modelos, sino que también mejora su capacidad para seguir instrucciones cortas. También descubrimos que DPO de largo contexto con LongReward y DPO de corto contexto convencional pueden utilizarse juntos sin afectar el rendimiento de ninguno de los dos.
La restauración de imágenes (IR) en escenarios del mundo real presenta desafíos significativos debido a la falta de modelos de alta capacidad y conjuntos de datos completos. Para abordar estos problemas, presentamos una estrategia dual: GenIR, un innovador proceso de curación de datos, y DreamClear, un modelo de restauración de imágenes de vanguardia basado en el Transformer de Difusión (DiT). GenIR, nuestra contribución pionera, es un proceso de aprendizaje dual que supera las limitaciones de los conjuntos de datos existentes, que suelen constar solo de unas pocas mil imágenes y por lo tanto ofrecen una generalización limitada para modelos más grandes. GenIR simplifica el proceso en tres etapas: construcción de pares imagen-texto, ajuste fino basado en doble indicación y generación y filtrado de datos. Este enfoque evita el laborioso proceso de rastreo de datos, garantizando el cumplimiento de los derechos de autor y proporcionando una solución rentable y segura en términos de privacidad para la construcción de conjuntos de datos de IR. El resultado es un conjunto de datos a gran escala de un millón de imágenes de alta calidad. Nuestra segunda contribución, DreamClear, es un modelo de restauración de imágenes basado en DiT. Utiliza los precursores generativos de los modelos de difusión de texto a imagen (T2I) y las sólidas capacidades perceptivas de los grandes modelos de lenguaje multimodal (MLLM) para lograr una restauración fotorrealista. Para potenciar la adaptabilidad del modelo a diversas degradaciones del mundo real, introducimos la Mezcla de Modulador Adaptativo (MoAM). Emplea precursores de degradación a nivel de token para integrar dinámicamente varios expertos en restauración, ampliando así el rango de degradaciones que el modelo puede abordar. Nuestros exhaustivos experimentos confirman el rendimiento superior de DreamClear, subrayando la eficacia de nuestra estrategia dual para la restauración de imágenes del mundo real. El código y los modelos pre-entrenados estarán disponibles en: https://github.com/shallowdream204/DreamClear.
ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han
19
5
El entrenamiento en FP8 ha surgido como un método prometedor para mejorar la eficiencia del entrenamiento. Los marcos existentes aceleran el entrenamiento aplicando cálculos en FP8 a capas lineales mientras mantienen los estados del optimizador y las activaciones en una precisión superior, lo que no logra optimizar completamente el uso de la memoria. Este documento presenta COAT (Compresión de Estados del Optimizador y Activaciones para el Entrenamiento en FP8), un marco de entrenamiento en FP8 novedoso diseñado para reducir significativamente la huella de memoria al entrenar modelos grandes. COAT aborda las limitaciones actuales a través de dos innovaciones clave: (1) Expansión del Rango Dinámico, que alinea las distribuciones de estados del optimizador de manera más cercana con el rango de representación en FP8, reduciendo así el error de cuantificación, y (2) Cuantificación de Activaciones de Granularidad Mixta, que optimiza la memoria de activación utilizando una combinación de estrategias de cuantificación por tensor y por grupo. Los experimentos demuestran que COAT reduce efectivamente la huella de memoria de entrenamiento de extremo a extremo en 1.54 veces en comparación con BF16, logrando un rendimiento casi sin pérdidas en diversas tareas, como el preentrenamiento y ajuste fino de Modelos de Lenguaje Grandes y el entrenamiento de Modelos de Lenguaje Visual. COAT también logra una aceleración del entrenamiento de extremo a extremo de 1.43 veces en comparación con BF16, desempeñándose al nivel o superando la aceleración de TransformerEngine. COAT permite el entrenamiento eficiente de modelos grandes con todos los parámetros en menos GPUs, y facilita duplicar el tamaño del lote en entornos de entrenamiento distribuido, proporcionando una solución práctica para escalar el entrenamiento de modelos a gran escala. El código está disponible en https://github.com/NVlabs/COAT.
Introducimos una novedosa técnica de anclaje espacial sin entrenamiento para la generación de texto a imagen utilizando Transformadores de Difusión (DiT). El anclaje espacial con cajas delimitadoras ha ganado atención por su simplicidad y versatilidad, permitiendo un mayor control por parte del usuario en la generación de imágenes. Sin embargo, enfoques previos sin entrenamiento a menudo dependen de actualizar la imagen ruidosa durante el proceso de difusión inversa a través de retropropagación desde funciones de pérdida personalizadas, lo que frecuentemente dificulta proporcionar un control preciso sobre cada caja delimitadora individual. En este trabajo, aprovechamos la flexibilidad de la arquitectura Transformer, demostrando que DiT puede generar parches ruidosos correspondientes a cada caja delimitadora, codificando completamente el objeto objetivo y permitiendo un control detallado sobre cada región. Nuestro enfoque se basa en una propiedad intrigante de DiT, a la que nos referimos como compartición semántica. Debido a la compartición semántica, cuando un parche más pequeño se desruidiza conjuntamente con una imagen de tamaño generable, los dos se convierten en "clones semánticos". Cada parche se desruidiza en su propia rama del proceso de generación y luego se trasplanta en la región correspondiente de la imagen ruidosa original en cada paso de tiempo, lo que resulta en un anclaje espacial robusto para cada caja delimitadora. En nuestros experimentos en los conjuntos de datos HRS y DrawBench, logramos un rendimiento de vanguardia en comparación con enfoques previos de anclaje espacial sin entrenamiento.
Los motores de búsqueda permiten la recuperación de información desconocida a través de textos. Sin embargo, los métodos tradicionales son insuficientes cuando se trata de comprender contenido visual desconocido, como identificar un objeto que el modelo nunca ha visto antes. Este desafío es especialmente notable para los modelos de visión-lenguaje (VLMs) a gran escala: si el modelo no ha sido expuesto al objeto representado en una imagen, le resulta difícil generar respuestas confiables a la pregunta del usuario sobre esa imagen. Además, dado que constantemente surgen nuevos objetos y eventos, actualizar frecuentemente los VLMs resulta poco práctico debido a las pesadas cargas computacionales. Para abordar esta limitación, proponemos Vision Search Assistant, un marco novedoso que facilita la colaboración entre los VLMs y agentes web. Este enfoque aprovecha las capacidades de comprensión visual de los VLMs y el acceso a información en tiempo real de los agentes web para llevar a cabo Generación con Recuperación Aumentada en un mundo abierto a través de la web. Al integrar representaciones visuales y textuales a través de esta colaboración, el modelo puede proporcionar respuestas informadas incluso cuando la imagen es nueva para el sistema. Experimentos extensos realizados en bancos de pruebas de preguntas y respuestas tanto de conjunto abierto como cerrado demuestran que el Vision Search Assistant supera significativamente a otros modelos y puede aplicarse ampliamente a los VLMs existentes.
ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette
10
2
La implementación segura y efectiva de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) implica un paso crítico llamado alineación, que garantiza que las respuestas del modelo estén en concordancia con las preferencias humanas. Técnicas de alineación prevalentes, como DPO, PPO y sus variantes, alinean los LLMs modificando los pesos del modelo pre-entrenado durante una fase llamada post-entrenamiento. Aunque predominantes, estos métodos de post-entrenamiento añaden una complejidad sustancial antes de que los LLMs puedan ser implementados. Los métodos de alineación en tiempo de inferencia evitan el paso complejo de post-entrenamiento y en su lugar sesgan la generación hacia respuestas alineadas con las preferencias humanas. El método de alineación en tiempo de inferencia más conocido, llamado Mejor-de-N, es tan efectivo como los procedimientos de post-entrenamiento de vanguardia. Desafortunadamente, Mejor-de-N requiere considerablemente más recursos en tiempo de inferencia que las estrategias de decodificación estándar, lo que lo hace computacionalmente inviable. En este trabajo, presentamos el Rechazo Especulativo, un algoritmo de alineación en tiempo de inferencia computacionalmente viable. Genera respuestas con puntajes altos de acuerdo con un modelo de recompensa dado, al igual que Mejor-de-N, siendo entre 16 y 32 veces más eficiente computacionalmente.
ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava
9
2
Presentamos LARP, un novedoso tokenizador de video diseñado para superar las limitaciones en los métodos actuales de tokenización de video para modelos generativos autoregresivos (AR). A diferencia de los tokenizadores tradicionales basados en parches que codifican directamente parches visuales locales en tokens discretos, LARP introduce un esquema de tokenización holístico que recopila información del contenido visual utilizando un conjunto de consultas holísticas aprendidas. Este diseño permite a LARP capturar representaciones más globales y semánticas, en lugar de estar limitado a información a nivel de parche local. Además, ofrece flexibilidad al admitir un número arbitrario de tokens discretos, lo que permite una tokenización adaptativa y eficiente basada en los requisitos específicos de la tarea. Para alinear el espacio de tokens discretos con las tareas de generación AR subsiguientes, LARP integra un transformador AR ligero como modelo prior en tiempo de entrenamiento que predice el próximo token en su espacio latente discreto. Al incorporar el modelo prior durante el entrenamiento, LARP aprende un espacio latente que no solo está optimizado para la reconstrucción de video, sino que también está estructurado de una manera más propicia para la generación autoregresiva. Además, este proceso define un orden secuencial para los tokens discretos, empujándolos progresivamente hacia una configuración óptima durante el entrenamiento, asegurando una generación AR más suave y precisa en el momento de la inferencia. Experimentos exhaustivos demuestran el sólido rendimiento de LARP, logrando el estado del arte en FVD en el benchmark de generación de video condicional de la clase UCF101. LARP mejora la compatibilidad de los modelos AR con videos y abre el potencial para construir modelos de lenguaje multimodal unificados de alta fidelidad (MLLMs).
ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen
7
2
En este trabajo, reformulamos el problema de compresión de modelos en el problema de compensación personalizada: Dado un modelo comprimido, nuestro objetivo es introducir rutas residuales de bajo rango para compensar los errores de compresión bajo requisitos personalizados de los usuarios (por ejemplo, tareas, ratios de compresión), lo que resulta en una mayor flexibilidad para ajustar la capacidad general sin estar limitados por formatos de compresión específicos. Sin embargo, aplicar ingenuamente la Descomposición en Valores Singulares (SVD, por sus siglas en inglés) para derivar rutas residuales causa una utilización subóptima de la capacidad de representación de bajo rango. En su lugar, proponemos la Aproximación de Bajo Rango del Espacio Propio sin Entrenamiento (EoRA, por sus siglas en inglés), un método que minimiza directamente los errores inducidos por la compresión sin necesidad de entrenamiento basado en gradientes, logrando una optimización rápida en minutos utilizando una pequeña cantidad de datos de calibración. EoRA proyecta los errores de compresión en el espacio propio de las activaciones de entrada, aprovechando los autovalores para priorizar de manera efectiva la reconstrucción de componentes de error de alta importancia. Además, EoRA puede integrarse fácilmente con el ajuste fino y la cuantificación para mejorar aún más la efectividad y eficiencia. EoRA supera consistentemente a métodos anteriores en la compensación de errores para modelos LLaMA2/3 comprimidos en diversas tareas, como generación de lenguaje, razonamiento de sentido común y tareas de razonamiento matemático (por ejemplo, mejoras del 31.31%/12.88% y 9.69% en ARC-Easy/ARC-Challenge y MathQA al compensar LLaMA3-8B cuantificado a 4 bits y podado a una dispersión de 2:4). EoRA ofrece una solución escalable y sin entrenamiento para compensar errores de compresión, convirtiéndose en una herramienta poderosa para implementar LLMs en diversos requisitos de capacidad y eficiencia.
ByLawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida
6
2
Los videos suelen utilizarse para aprender o extraer la información necesaria para completar tareas de formas diferentes a las que solo el texto y las imágenes estáticas pueden proporcionar. Sin embargo, muchos benchmarks existentes de agentes descuidan la comprensión de videos de largo contexto, centrándose en cambio en entradas de texto o imágenes estáticas. Para cerrar esta brecha, presentamos VideoWebArena (VideoWA), un benchmark para evaluar las capacidades de agentes multimodales de largo contexto en la comprensión de videos. VideoWA consta de 2,021 tareas de agentes web basadas en tutoriales de video creados manualmente, que en total suman casi cuatro horas de contenido. Para nuestro benchmark, definimos una taxonomía de tareas de agentes basadas en videos de largo contexto con dos áreas principales de enfoque: retención de habilidades y retención de hechos. Mientras que las tareas de retención de habilidades evalúan si un agente puede utilizar una demostración humana dada para completar una tarea eficientemente, la tarea de retención de hechos evalúa si un agente puede recuperar información relevante para la instrucción de un video para completar una tarea. Encontramos que el mejor modelo logra un 13.3% de éxito en tareas de retención de hechos y un 45.8% en pares de preguntas y respuestas de retención de hechos, muy por debajo del rendimiento humano que es del 73.9% y 79.3%, respectivamente. En tareas de retención de habilidades, los modelos de largo contexto tienen un peor rendimiento con tutoriales que sin ellos, mostrando una disminución del rendimiento del 5% en tareas de WebArena y del 10.3% en tareas de VisualWebArena. Nuestro trabajo destaca la necesidad de mejorar las habilidades agentes de modelos multimodales de largo contexto y proporciona una plataforma de pruebas para el desarrollo futuro con agentes de video de largo contexto.
BySangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster
6
3
Los modelos de lenguaje grandes (LLMs) son costosos de implementar. El uso compartido de parámetros ofrece un posible camino para reducir su tamaño y coste, pero su efectividad en los LLMs modernos sigue siendo bastante limitada. En este trabajo, revisitamos el "anudamiento de capas" como una forma de compartir parámetros en Transformadores, e introducimos métodos novedosos para convertir LLMs existentes en "Transformadores Recursivos" más pequeños que comparten parámetros entre capas, con una pérdida mínima de rendimiento. Aquí, nuestros Transformadores Recursivos se inicializan eficientemente a partir de Transformadores preentrenados estándar, pero solo utilizan un bloque único de capas que luego se repite varias veces en un bucle. Mejoramos aún más el rendimiento al introducir Transformadores Recursivos Relajados que añaden flexibilidad a la restricción de anudamiento de capas a través de módulos de adaptación de rango bajo (LoRA) en profundidad, manteniendo la compacidad del modelo en general. Mostramos que nuestros modelos recursivos (por ejemplo, Gemma 1B recursivo) superan tanto a modelos preentrenados similares en tamaño (como TinyLlama 1.1B y Pythia 1B) como a líneas base de destilación de conocimiento, e incluso pueden recuperar la mayor parte del rendimiento del modelo "tamaño completo" original (por ejemplo, Gemma 2B sin parámetros compartidos). Finalmente, proponemos el "Agrupamiento Continuo en Profundidad", un nuevo paradigma prometedor de inferencia habilitado por el Transformador Recursivo cuando se combina con la salida temprana. En un análisis teórico, mostramos que esto tiene el potencial de llevar a ganancias significativas (2-3 veces) en el rendimiento de inferencia.
BySergio Burdisso, Srikanth Madikeri, Petr Motlicek
5
2
Derivar de manera eficiente flujos de trabajo estructurados a partir de diálogos no anotados sigue siendo un desafío poco explorado y formidable en lingüística computacional. Automatizar este proceso podría acelerar significativamente el diseño manual de flujos de trabajo en nuevos dominios y permitir la fundamentación de grandes modelos de lenguaje en diagramas de flujo específicos del dominio, mejorando la transparencia y la controlabilidad. En este artículo, presentamos los embeddings de Dialog2Flow (D2F), que difieren de los embeddings de oraciones convencionales al mapear enunciados a un espacio latente donde se agrupan según sus funciones comunicativas e informativas (es decir, las acciones que representan). D2F permite modelar diálogos como trayectorias continuas en un espacio latente con regiones distintas relacionadas con las acciones. Al clusterizar los embeddings de D2F, el espacio latente se cuantifica y los diálogos pueden convertirse en secuencias de identificadores de región/acción, facilitando la extracción del flujo de trabajo subyacente. Para pre-entrenar D2F, construimos un conjunto de datos integral unificando veinte conjuntos de datos de diálogos orientados a tareas con anotaciones normalizadas de acciones por turno. También introducimos una nueva pérdida contrastiva suave que aprovecha la información semántica de estas acciones para guiar el proceso de aprendizaje de representación, mostrando un rendimiento superior en comparación con la pérdida contrastiva supervisada estándar. La evaluación frente a varios embeddings de oraciones, incluidos los específicos de diálogos, demuestra que D2F produce resultados cualitativos y cuantitativos superiores en diversos dominios.
ByMuhammad Zubair Irshad, Mauro Comi, Yen-Chen Lin, Nick Heppert, Abhinav Valada, Rares Ambrus, Zsolt Kira, Jonathan Tremblay
5
2
Los Campos Neuronales han surgido como un enfoque transformador para la representación de escenas 3D en visión por computadora y robótica, permitiendo una inferencia precisa de la geometría, semántica 3D y dinámica a partir de datos 2D planteados. Aprovechando el renderizado diferenciable, los Campos Neuronales abarcan tanto representaciones neuronales implícitas como explícitas continuas que permiten una reconstrucción 3D de alta fidelidad, la integración de datos de sensores multimodales y la generación de nuevos puntos de vista. Esta revisión explora sus aplicaciones en robótica, enfatizando su potencial para mejorar la percepción, planificación y control. Su compacidad, eficiencia de memoria y diferenciabilidad, junto con la integración perfecta con modelos fundamentales y generativos, los hacen ideales para aplicaciones en tiempo real, mejorando la adaptabilidad y la toma de decisiones de los robots. Este documento proporciona una revisión exhaustiva de los Campos Neuronales en robótica, categorizando las aplicaciones en diversos dominios y evaluando sus fortalezas y limitaciones, basándose en más de 200 artículos. En primer lugar, presentamos cuatro marcos clave de Campos Neuronales: Redes de Ocupación, Campos de Distancia Firmada, Campos de Radiación Neuronal y Splatting Gaussiano. En segundo lugar, detallamos las aplicaciones de los Campos Neuronales en cinco dominios principales de robótica: estimación de pose, manipulación, navegación, física y conducción autónoma, destacando trabajos clave y discutiendo conclusiones y desafíos abiertos. Por último, esbozamos las limitaciones actuales de los Campos Neuronales en robótica y proponemos direcciones prometedoras para futuras investigaciones. Página del proyecto: https://robonerf.github.io
Dado el alto costo de recolectar datos robóticos en el mundo real, la eficiencia de la muestra es una búsqueda constantemente convincente en robótica. En este documento, presentamos SGRv2, un marco de aprendizaje por imitación que mejora la eficiencia de la muestra a través de representaciones visuales y de acción mejoradas. Central en el diseño de SGRv2 es la incorporación de un sesgo inductivo crítico: la localidad de la acción, que postula que las acciones del robot son predominantemente influenciadas por el objeto objetivo y sus interacciones con el entorno local. Experimentos extensos en entornos simulados y del mundo real demuestran que la localidad de la acción es esencial para aumentar la eficiencia de la muestra. SGRv2 destaca en tareas de RLBench con control de fotograma clave utilizando tan solo 5 demostraciones y supera la línea base de RVT en 23 de 26 tareas. Además, al ser evaluado en ManiSkill2 y MimicGen utilizando control denso, la tasa de éxito de SGRv2 es 2.54 veces mayor que la de SGR. En entornos del mundo real, con tan solo ocho demostraciones, SGRv2 puede realizar una variedad de tareas con una tasa de éxito notablemente más alta en comparación con los modelos base. Sitio web del proyecto: http://sgrv2-robot.github.io
Esta investigación evalúa el papel de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como herramientas formales de segunda opinión en la toma de decisiones profesionales, centrándose especialmente en casos médicos complejos donde incluso médicos experimentados buscan consultas de colegas. El trabajo analizó 183 casos médicos desafiantes de Medscape durante un período de 20 meses, evaluando el rendimiento de múltiples LLMs frente a las respuestas de médicos recopiladas de la multitud. Un hallazgo clave fue la alta puntuación general posible en los últimos modelos fundamentales (>80% de precisión en comparación con la opinión de consenso), superando la mayoría de las métricas humanas reportadas en los mismos casos clínicos (450 páginas de perfiles de pacientes, resultados de pruebas). El estudio evalúa la disparidad en el rendimiento de los LLMs entre casos sencillos (>81% de precisión) y escenarios complejos (43% de precisión), especialmente en aquellos casos que generan un debate sustancial entre los médicos humanos. La investigación demuestra que los LLMs pueden ser valiosos como generadores de diagnósticos diferenciales completos en lugar de como herramientas de diagnóstico primarias, potencialmente ayudando a contrarrestar los sesgos cognitivos en la toma de decisiones clínicas, reducir las cargas cognitivas y, por lo tanto, eliminar algunas fuentes de error médico. La inclusión de un segundo conjunto de datos legales comparativos (casos de la Corte Suprema, N=21) proporciona un contexto empírico adicional para el uso de la IA en fomentar segundas opiniones, aunque estos desafíos legales resultaron considerablemente más fáciles de analizar para los LLMs. Además de las contribuciones originales de evidencia empírica para la precisión de los LLMs, la investigación agregó un nuevo punto de referencia para que otros evalúen la fiabilidad de preguntas y respuestas altamente disputadas entre tanto los LLMs como los profesionales humanos en desacuerdo. Estos resultados sugieren que el despliegue óptimo de los LLMs en entornos profesionales puede diferir sustancialmente de los enfoques actuales que enfatizan la automatización de tareas rutinarias.
ByWenshuai Zhao, Yi Zhao, Joni Pajarinen, Michael Muehlebach
1
2
El aprendizaje por imitación a partir de datos de captura de movimiento humano (MoCap) ofrece una forma prometedora de entrenar robots humanoides. Sin embargo, debido a diferencias en la morfología, como variaciones en los grados de libertad de las articulaciones y límites de fuerza, la replicación exacta de comportamientos humanos puede no ser factible para los robots humanoides. En consecuencia, la incorporación de datos MoCap físicamente inviables en conjuntos de datos de entrenamiento puede afectar negativamente el rendimiento de la política del robot. Para abordar este problema, proponemos un marco de aprendizaje por imitación basado en optimización de dos niveles que alterna entre la optimización de la política del robot y los datos MoCap objetivo. Específicamente, primero desarrollamos un modelo generativo de dinámicas latentes utilizando un novedoso auto-codificador auto-consistente, que aprende representaciones de movimiento dispersas y estructuradas mientras captura patrones de movimiento deseados en el conjunto de datos. Luego, el modelo de dinámicas se utiliza para generar movimientos de referencia mientras que la representación latente regulariza el proceso de imitación de movimiento de dos niveles. Simulaciones realizadas con un modelo realista de un robot humanoide demuestran que nuestro método mejora la política del robot al modificar los movimientos de referencia para que sean físicamente consistentes.