Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

EXAONE 4.0: Modelos de Linguagem de Grande Escala Unificados Integrando Modos de Não-raciocínio e Raciocínio
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Jul 15, 2025

LG AI Research, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Yemuk Choi, Kyubeen Han, Seokhee Hong, Junwon Hwang, Taewan Hwang, Joonwon Jang, Hyojin Jeon, Kijeong Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Euisoon Kim, Hyosang Kim, Jihoon Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Gwangho Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Sangha Park, Young Min Paik, Yongmin Park, Youngyong Park, Sanghyun Seo, Sihoon Yang, Heuiyeen Yeen, Sihyuk Yi, Hyeongu Yun

514

Este relatório técnico apresenta o EXAONE 4.0, que integra um Modo Sem Raciocínio e um Modo de Raciocínio para alcançar tanto a excelente usabilidade do EXAONE 3.5 quanto as habilidades avançadas de raciocínio do EXAONE Deep. Para pavimentar o caminho para a era da IA agentiva, o EXAONE 4.0 incorpora recursos essenciais, como o uso de ferramentas agentivas, e suas capacidades multilíngues são estendidas para incluir o espanhol, além do inglês e do coreano. A série de modelos EXAONE 4.0 consiste em dois tamanhos: um modelo de tamanho médio de 32B otimizado para alto desempenho e um modelo compacto de 1.2B projetado para aplicações em dispositivos locais. O EXAONE 4.0 demonstra desempenho superior em comparação com modelos de código aberto de sua classe e mantém-se competitivo mesmo contra modelos de classe fronteiriça. Os modelos estão disponíveis publicamente para fins de pesquisa e podem ser facilmente baixados via https://huggingface.co/LGAI-EXAONE.

Autoencoder Visão-Linguagem-Visão: Distilação Escalável de Conhecimento a partir de Modelos de Difusão
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Jul 9, 2025

Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao

441

A construção de modelos de visão e linguagem (VLMs) de última geração com capacidades avançadas de geração de legendas geralmente exige o treinamento em bilhões de pares de imagem-texto de alta qualidade, demandando milhões de horas de GPU. Este artigo introduz o framework Vision-Language-Vision (VLV) autoencoder, que utiliza estrategicamente componentes pré-treinados essenciais: um codificador de visão, o decodificador de um modelo de difusão Text-to-Image (T2I) e, posteriormente, um Modelo de Linguagem de Grande Escala (LLM). Especificamente, estabelecemos um gargalo de informação ao regularizar o espaço de representação linguística, alcançado através do congelamento do decodificador pré-treinado do modelo de difusão T2I. Nosso pipeline VLV efetivamente destila conhecimento do modelo de difusão condicionado por texto utilizando embeddings contínuos, demonstrando compreensão semântica abrangente por meio de reconstruções de alta qualidade. Além disso, ao ajustar finamente um LLM pré-treinado para decodificar as representações linguísticas intermediárias em descrições detalhadas, construímos um gerador de legendas de última geração (SoTA) comparável a modelos líderes como GPT-4o e Gemini 2.0 Flash. Nosso método demonstra excepcional eficiência de custo e reduz significativamente os requisitos de dados; ao utilizar principalmente imagens unimodais para treinamento e maximizar a utilidade de modelos pré-treinados existentes (codificador de imagem, modelo de difusão T2I e LLM), ele contorna a necessidade de grandes conjuntos de dados de pares imagem-texto, mantendo o custo total de treinamento abaixo de US$ 1.000.

Leis de Escalonamento para Misturas Ótimas de Dados
Scaling Laws for Optimal Data Mixtures

Jul 12, 2025

Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin

331

Grandes modelos de base são tipicamente treinados com dados de múltiplos domínios, sendo que a mistura de dados—a proporção de cada domínio utilizado—desempenha um papel crítico no desempenho do modelo. A abordagem padrão para selecionar essa mistura se baseia em tentativa e erro, o que se torna impraticável para pré-treinamentos em larga escala. Propomos um método sistemático para determinar a mistura ótima de dados para qualquer domínio alvo utilizando leis de escalonamento. Nossa abordagem prevê com precisão a perda de um modelo de tamanho N treinado com D tokens e um vetor de pesos de domínio específico h. Validamos a universalidade dessas leis de escalonamento demonstrando seu poder preditivo em três cenários distintos e em larga escala: pré-treinamento de modelos de linguagem de grande escala (LLM), modelos multimodais nativos (NMM) e modelos de visão de grande escala (LVM). Além disso, mostramos que essas leis de escalonamento podem extrapolar para novas misturas de dados e entre escalas: seus parâmetros podem ser estimados com precisão usando algumas execuções de treinamento em pequena escala e, em seguida, usados para estimar o desempenho em escalas maiores e pesos de domínio não vistos. As leis de escalonamento permitem derivar os pesos ótimos de domínio para qualquer domínio alvo sob um orçamento de treinamento (N,D) dado, oferecendo uma alternativa fundamentada aos métodos custosos de tentativa e erro.

OpenCodeReasoning-II: Uma Abordagem Simples de Escalonamento em Tempo de Teste via Autocrítica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Jul 11, 2025

Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg

131

Os recentes avanços em modelos de linguagem de grande escala (LLMs) baseados em raciocínio, particularmente seu potencial por meio de escalonamento em tempo de teste, criaram oportunidades significativas para destilação em geração e crítica de código. No entanto, o progresso em ambas as áreas depende fundamentalmente de conjuntos de dados em larga escala e de alta qualidade. Neste trabalho, apresentamos o OpenCodeReasoning-II, um conjunto de dados que consiste em 2,5 milhões de triplas pergunta-solução-crítica (aproximadamente 35 mil questões de programação únicas), tornando-o quase duas vezes maior que o maior conjunto de dados de raciocínio de código publicamente disponível anteriormente. Neste trabalho, empregamos uma estratégia de ajuste fino supervisionado em duas etapas. A primeira etapa concentra-se no ajuste fino para geração de código, enquanto a segunda etapa envolve o treinamento conjunto de modelos para geração e crítica de código. Nossos modelos Qwen2.5-Instruct ajustados alcançam desempenho em geração de código que supera ou iguala os melhores modelos destilados de peso aberto anteriores. Notavelmente, a integração de nossos modelos de geração e crítica de código leva a melhorias significativas no desempenho competitivo de programação. Além disso, apresentamos uma extensão do benchmark LiveCodeBench para suportar especificamente a linguagem de programação C++, facilitando assim uma avaliação mais abrangente de LLMs usando esse benchmark.

AgentsNet: Coordenação e Raciocínio Colaborativo em LLMs Multiagente
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Jul 11, 2025

Florian Grötschla, Luis Müller, Jan Tönshoff, Mikhail Galkin, Bryan Perozzi

131

Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades poderosas de resolução de problemas, especialmente quando organizados em sistemas multiagentes. No entanto, o surgimento desses sistemas também levanta várias questões sobre a capacidade de uma rede complexa de agentes de se auto-organizar e colaborar de forma eficaz. Embora a medição do desempenho em benchmarks padrão de raciocínio indique quão bem os sistemas multiagentes podem resolver tarefas de raciocínio, não está claro se esses sistemas são capazes de aproveitar sua topologia de forma eficiente. Aqui, propomos o AgentsNet, um novo benchmark para raciocínio multiagente. Ao se inspirar em problemas clássicos de sistemas distribuídos e teoria dos grafos, o AgentsNet mede a capacidade dos sistemas multiagentes de formar colaborativamente estratégias para resolução de problemas, auto-organização e comunicação eficaz, dada uma topologia de rede. Avaliamos uma variedade de métodos de linha de base no AgentsNet, incluindo redes homogêneas de agentes que primeiro precisam concordar com protocolos básicos para organização e comunicação. Descobrimos que alguns LLMs de ponta já estão demonstrando um desempenho forte para redes pequenas, mas começam a decair quando o tamanho da rede escala. Enquanto os benchmarks multiagentes existentes cobrem no máximo 2-5 agentes, o AgentsNet é praticamente ilimitado em tamanho e pode escalar com as novas gerações de LLMs. Como tal, também exploramos modelos de ponta em uma configuração com até 100 agentes.

Os Modelos de Fundação Multimodais Podem Compreender Diagramas Esquemáticos? Um Estudo Empírico sobre QA de Busca de Informação em Artigos Científicos
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Jul 14, 2025

Yilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan

111

Este artigo apresenta o MISS-QA, o primeiro benchmark especificamente projetado para avaliar a capacidade dos modelos de interpretar diagramas esquemáticos presentes na literatura científica. O MISS-QA é composto por 1.500 exemplos anotados por especialistas, extraídos de 465 artigos científicos. Neste benchmark, os modelos são desafiados a interpretar diagramas esquemáticos que ilustram visões gerais de pesquisas e a responder perguntas de busca de informações com base no contexto mais amplo do artigo. Avaliamos o desempenho de 18 modelos multimodais de ponta, incluindo o4-mini, Gemini-2.5-Flash e Qwen2.5-VL. Revelamos uma lacuna significativa de desempenho entre esses modelos e especialistas humanos no MISS-QA. Nossa análise do desempenho dos modelos em perguntas sem resposta e a análise detalhada de erros destacam ainda mais os pontos fortes e as limitações dos modelos atuais, oferecendo insights fundamentais para aprimorar a compreensão de literatura científica multimodal por parte dos modelos.

Domando modelos generativos de vídeo para extração de fluxo óptico zero-shot
Taming generative video models for zero-shot optical flow extraction

Jul 11, 2025

Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins

111

A extração de fluxo óptico a partir de vídeos continua sendo um problema central na visão computacional. Motivados pelo sucesso de modelos gerais de grande escala, questionamos se modelos de vídeo auto-supervisionados congelados, treinados apenas para previsão de quadros futuros, podem ser "promptados", sem ajuste fino, para gerar fluxo. Trabalhos anteriores que extraíram profundidade ou iluminação de geradores de vídeo exigiram ajuste fino, o que é impraticável para fluxo, onde os rótulos são escassos e os conjuntos de dados sintéticos sofrem com a lacuna sim-to-real. Inspirados pelo paradigma do Modelo de Mundo Contrafactual (CWM), que pode obter correspondências ponto a ponto ao injetar uma pequena perturbação traçadora em um preditor de quadro seguinte e rastrear sua propagação, estendemos essa ideia para modelos generativos de vídeo. Exploramos várias arquiteturas populares e descobrimos que a extração de fluxo zero-shot bem-sucedida dessa maneira é auxiliada por três propriedades do modelo: (1) previsão distribucional de quadros futuros (evitando saídas borradas ou ruidosas); (2) latentes fatorizados que tratam cada patch espaço-temporal de forma independente; e (3) decodificação de acesso aleatório que pode condicionar qualquer subconjunto de pixels futuros. Essas propriedades estão exclusivamente presentes na recente arquitetura Local Random Access Sequence (LRAS). Com base na LRAS, propomos o KL-tracing: um novo procedimento em tempo de teste que injeta uma perturbação localizada no primeiro quadro, executa o modelo um passo adiante e calcula a divergência de Kullback-Leibler entre as distribuições preditivas perturbadas e não perturbadas. Sem qualquer ajuste fino específico para fluxo, nosso método supera os modelos state-of-the-art no conjunto de dados real TAP-Vid DAVIS (melhoria relativa de 16,6% no erro de ponto final) e no sintético TAP-Vid Kubric (melhoria relativa de 4,7%). Nossos resultados indicam que o "prompting" contrafactual de modelos generativos de vídeo controláveis é uma alternativa escalável e eficaz às abordagens supervisionadas ou baseadas em perda fotométrica para fluxo de alta qualidade.

BYOKG-RAG: Recuperação de Grafos com Estratégias Múltiplas para Resposta a Perguntas em Grafos de Conhecimento
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

Jul 5, 2025

Costas Mavromatis, Soji Adeshina, Vassilis N. Ioannidis, Zhen Han, Qi Zhu, Ian Robinson, Bryan Thompson, Huzefa Rangwala, George Karypis

A resposta a perguntas em grafos de conhecimento (KGQA) apresenta desafios significativos devido às variações estruturais e semânticas entre os grafos de entrada. Trabalhos existentes dependem de agentes baseados em Modelos de Linguagem de Grande Escala (LLMs) para a travessia e recuperação de grafos; uma abordagem que é sensível à inicialização da travessia, pois é propensa a erros de vinculação de entidades e pode não generalizar bem para KGs personalizados ("bring-your-own"). Apresentamos o BYOKG-RAG, um framework que aprimora o KGQA ao combinar sinergicamente LLMs com ferramentas especializadas de recuperação de grafos. No BYOKG-RAG, os LLMs geram artefatos críticos do grafo (entidades da pergunta, respostas candidatas, caminhos de raciocínio e consultas OpenCypher), e as ferramentas de grafo vinculam esses artefatos ao KG e recuperam o contexto relevante do grafo. O contexto recuperado permite que o LLM refine iterativamente sua vinculação e recuperação do grafo, antes da geração da resposta final. Ao recuperar o contexto de diferentes ferramentas de grafo, o BYOKG-RAG oferece uma solução mais geral e robusta para QA em KGs personalizados. Por meio de experimentos em cinco benchmarks que abrangem diversos tipos de KGs, demonstramos que o BYOKG-RAG supera o segundo melhor método de recuperação de grafo em 4,5 pontos percentuais, mostrando melhor generalização para KGs personalizados. O framework BYOKG-RAG é de código aberto e está disponível em https://github.com/awslabs/graphrag-toolkit.

UGC-VideoCaptioner: Um Modelo de Captação de Detalhes em Vídeos UGC Abrangente e Novos Benchmarks
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Jul 15, 2025

Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen

Vídeos gerados por usuários no mundo real, especialmente em plataformas como o TikTok, frequentemente apresentam conteúdo audiovisual rico e interconectado. No entanto, os benchmarks e modelos existentes para legendagem de vídeos permanecem predominantemente centrados no visual, negligenciando o papel crucial do áudio na transmissão da dinâmica da cena, da intenção do falante e do contexto narrativo. Essa falta de conjuntos de dados omni e de modelos leves e capazes dificulta o progresso na compreensão multimodal e refinada de vídeos. Para enfrentar esses desafios, apresentamos o UGC-VideoCap, um novo benchmark e framework de modelo especificamente projetado para a legendagem omni detalhada de vídeos curtos gerados por usuários. Diferente de conjuntos de dados anteriores, o UGC-VideoCap enfatiza a integração equilibrada das modalidades de áudio e visual, apresentando 1000 vídeos do TikTok anotados por meio de um pipeline estruturado em três etapas com intervenção humana, cobrindo semântica apenas de áudio, apenas visual e conjunta audiovisual. O benchmark também inclui 4000 pares de perguntas e respostas cuidadosamente elaborados, explorando tanto a compreensão unimodal quanto a cruzada entre modalidades. Juntamente com o conjunto de dados, propomos o UGC-VideoCaptioner(3B), um modelo de legendagem com 3 bilhões de parâmetros, destilado do Gemini 2.5 Flash. Utilizando uma nova estratégia de treinamento em duas etapas — ajuste fino supervisionado seguido de Otimização de Política Relativa em Grupo (GRPO) — nossa abordagem permite uma adaptação eficiente a partir de dados limitados, mantendo um desempenho competitivo. Juntos, nosso benchmark e modelo oferecem uma base de alta qualidade e uma solução eficiente em termos de dados para avançar a legendagem omni de vídeos em cenários reais e não restritos de conteúdo gerado por usuários (UGC).

Inpaint de Áudio Baseado em Tokens via Difusão Discreta
Token-based Audio Inpainting via Discrete Diffusion

Jul 11, 2025

Tali Dror, Iftach Shoham, Moshe Buchris, Oren Gal, Haim Permuter, Gilad Katz, Eliya Nachmani

O inpainting de áudio refere-se à tarefa de reconstruir segmentos ausentes em gravações de áudio corrompidas. Embora abordagens anteriores — incluindo modelos de difusão baseados em waveform e espectrograma — tenham mostrado resultados promissores para lacunas curtas, elas frequentemente apresentam degradação na qualidade quando as lacunas excedem 100 milissegundos (ms). Neste trabalho, introduzimos um novo método de inpainting baseado em modelagem de difusão discreta, que opera sobre representações de áudio tokenizadas produzidas por um tokenizador de áudio pré-treinado. Nossa abordagem modela o processo generativo diretamente no espaço latente discreto, permitindo uma reconstrução estável e semanticamente coerente do áudio ausente. Avaliamos o método no conjunto de dados MusicNet usando métricas objetivas e perceptuais para durações de lacuna de até 300 ms. Além disso, avaliamos nossa abordagem no conjunto de dados MTG, estendendo a duração da lacuna para 500 ms. Os resultados experimentais demonstram que nosso método alcança desempenho competitivo ou superior em comparação com as linhas de base existentes, particularmente para lacunas mais longas, oferecendo uma solução robusta para a restauração de gravações musicais degradadas. Exemplos de áudio do nosso método proposto podem ser encontrados em https://iftach21.github.io/.

LLMalMorph: Sobre a Viabilidade de Gerar Malwares Variantes Usando Modelos de Linguagem de Grande Escala
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

Jul 12, 2025

Md Ajwad Akil, Adrian Shuai Li, Imtiaz Karim, Arun Iyengar, Ashish Kundu, Vinny Parla, Elisa Bertino

Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o desenvolvimento de software e a geração automatizada de código. Motivados por esses avanços, este artigo explora a viabilidade do uso de LLMs para modificar o código-fonte de malware e gerar variantes. Apresentamos o LLMalMorph, um framework semiautomatizado que aproveita a compreensão semântica e sintática de código por LLMs para gerar novas variantes de malware. O LLMalMorph extrai informações em nível de função do código-fonte do malware e emprega prompts personalizados, combinados com transformações de código estrategicamente definidas, para orientar o LLM na geração de variantes sem a necessidade de ajuste fino intensivo em recursos. Para avaliar o LLMalMorph, coletamos 10 amostras diversas de malware para Windows, variando em tipo, complexidade e funcionalidade, e geramos 618 variantes. Nossos experimentos detalhados demonstram que é possível reduzir, em certa medida, as taxas de detecção dessas variantes de malware pelos mecanismos antivírus, preservando as funcionalidades do malware. Além disso, apesar de não otimizar contra nenhum detector de malware baseado em Aprendizado de Máquina (ML), várias variantes também alcançaram taxas de sucesso notáveis contra um classificador de malware baseado em ML. Também discutimos as limitações atuais das capacidades dos LLMs na geração de variantes de malware a partir do código-fonte e avaliamos onde essa tecnologia emergente se posiciona no contexto mais amplo da geração de variantes de malware.

Confiança Orquestrador-Agente: Um Sistema Modular de Classificação Visual por IA Agêntica com Orquestração Consciente de Confiança e Raciocínio Baseado em RAG
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

Jul 9, 2025

Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas

A Inteligência Artificial (IA) moderna depende cada vez mais de arquiteturas multiagentes que integram compreensão visual e linguística. No entanto, um desafio urgente persiste: Como podemos confiar nesses agentes, especialmente em cenários zero-shot sem ajuste fino? Apresentamos uma nova estrutura modular de classificação visual de IA Agente que integra agentes multimodais generalistas com um orquestrador de raciocínio não visual e um módulo de Geração Aumentada por Recuperação (RAG). Aplicado ao diagnóstico de doenças em folhas de maçã, avaliamos três configurações: (I) zero-shot com orquestração baseada em confiança, (II) agentes ajustados com desempenho aprimorado e (III) orquestração calibrada para confiança, reforçada por recuperação de imagens baseada em CLIP e loops de reavaliação. Usando métricas de calibração de confiança (ECE, OCR, CCC), o orquestrador modula a confiança entre os agentes. Nossos resultados demonstram uma melhoria de 77,94% na precisão no cenário zero-shot usando orquestração consciente da confiança e RAG, alcançando 85,63% no geral. O GPT-4o mostrou melhor calibração, enquanto o Qwen-2.5-VL exibiu excesso de confiança. Além disso, o RAG de imagens fundamentou previsões com casos visualmente semelhantes, permitindo a correção do excesso de confiança dos agentes por meio de reavaliação iterativa. O sistema proposto separa a percepção (agentes visuais) do meta-raciocínio (orquestrador), permitindo uma IA multiagente escalável e interpretável. Este modelo é extensível a diagnósticos, biologia e outros domínios críticos para a confiança. Todos os modelos, prompts, resultados e componentes do sistema, incluindo o código-fonte completo do software, são liberados abertamente para apoiar a reprodutibilidade, transparência e benchmarking comunitário no Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust

Plantado no Pré-treinamento, Moldado pelo Ajuste Fino: Um Estudo de Caso sobre as Origens dos Vieses Cognitivos em LLMs
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

Jul 9, 2025

Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky

Modelos de linguagem de grande escala (LLMs) exibem vieses cognitivos — tendências sistemáticas de tomada de decisão irracional, semelhantes às observadas em humanos. Trabalhos anteriores descobriram que esses vieses variam entre modelos e podem ser amplificados pelo ajuste por instrução. No entanto, ainda não está claro se essas diferenças nos vieses decorrem do pré-treinamento, do ajuste fino ou até mesmo de ruídos aleatórios devido à estocasticidade do treinamento. Propomos uma abordagem experimental causal em duas etapas para desvendar esses fatores. Primeiro, ajustamos modelos várias vezes usando diferentes sementes aleatórias para estudar como a aleatoriedade do treinamento afeta mais de 30 vieses cognitivos. Segundo, introduzimos o "cross-tuning" — trocando conjuntos de dados de instrução entre modelos para isolar as fontes de viés. Essa troca utiliza conjuntos de dados que levaram a padrões de viés diferentes, testando diretamente se os vieses são dependentes do conjunto de dados. Nossos resultados revelam que, embora a aleatoriedade do treinamento introduza alguma variabilidade, os vieses são principalmente moldados pelo pré-treinamento: modelos com o mesmo núcleo pré-treinado exibem padrões de viés mais semelhantes do que aqueles que compartilham apenas dados de ajuste fino. Essas descobertas sugerem que a compreensão dos vieses em modelos ajustados requer a consideração de suas origens no pré-treinamento, além dos efeitos do ajuste fino. Essa perspectiva pode orientar esforços futuros para desenvolver estratégias fundamentadas na avaliação e mitigação de vieses em LLMs.

Domando modelos generativos de vídeo para extração de fluxo óptico zero-shot
Taming generative video models for zero-shot optical flow extraction

Jul 11, 2025

Seungwoo Kim, Khai Loong Aw, Klemen Kotar, Cristobal Eyzaguirre, Wanhee Lee, Yunong Liu, Jared Watrous, Stefan Stojanov, Juan Carlos Niebles, Jiajun Wu, Daniel L. K. Yamins

111

Papers Diários

EXAONE 4.0: Modelos de Linguagem de Grande Escala Unificados Integrando Modos de Não-raciocínio e Raciocínio
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Autoencoder Visão-Linguagem-Visão: Distilação Escalável de Conhecimento a partir de Modelos de Difusão
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Leis de Escalonamento para Misturas Ótimas de Dados
Scaling Laws for Optimal Data Mixtures

OpenCodeReasoning-II: Uma Abordagem Simples de Escalonamento em Tempo de Teste via Autocrítica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

AgentsNet: Coordenação e Raciocínio Colaborativo em LLMs Multiagente
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Os Modelos de Fundação Multimodais Podem Compreender Diagramas Esquemáticos? Um Estudo Empírico sobre QA de Busca de Informação em Artigos Científicos
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Domando modelos generativos de vídeo para extração de fluxo óptico zero-shot
Taming generative video models for zero-shot optical flow extraction

BYOKG-RAG: Recuperação de Grafos com Estratégias Múltiplas para Resposta a Perguntas em Grafos de Conhecimento
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

UGC-VideoCaptioner: Um Modelo de Captação de Detalhes em Vídeos UGC Abrangente e Novos Benchmarks
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Inpaint de Áudio Baseado em Tokens via Difusão Discreta
Token-based Audio Inpainting via Discrete Diffusion

LLMalMorph: Sobre a Viabilidade de Gerar Malwares Variantes Usando Modelos de Linguagem de Grande Escala
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

Confiança Orquestrador-Agente: Um Sistema Modular de Classificação Visual por IA Agêntica com Orquestração Consciente de Confiança e Raciocínio Baseado em RAG
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

Plantado no Pré-treinamento, Moldado pelo Ajuste Fino: Um Estudo de Caso sobre as Origens dos Vieses Cognitivos em LLMs
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

Support

Support

Papers Diários

EXAONE 4.0: Modelos de Linguagem de Grande Escala Unificados Integrando Modos de Não-raciocínio e Raciocínio
EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

Autoencoder Visão-Linguagem-Visão: Distilação Escalável de Conhecimento a partir de Modelos de Difusão
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Leis de Escalonamento para Misturas Ótimas de Dados
Scaling Laws for Optimal Data Mixtures

OpenCodeReasoning-II: Uma Abordagem Simples de Escalonamento em Tempo de Teste via Autocrítica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

AgentsNet: Coordenação e Raciocínio Colaborativo em LLMs Multiagente
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Os Modelos de Fundação Multimodais Podem Compreender Diagramas Esquemáticos? Um Estudo Empírico sobre QA de Busca de Informação em Artigos Científicos
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Domando modelos generativos de vídeo para extração de fluxo óptico zero-shot
Taming generative video models for zero-shot optical flow extraction

BYOKG-RAG: Recuperação de Grafos com Estratégias Múltiplas para Resposta a Perguntas em Grafos de Conhecimento
BYOKG-RAG: Multi-Strategy Graph Retrieval for Knowledge Graph Question Answering

UGC-VideoCaptioner: Um Modelo de Captação de Detalhes em Vídeos UGC Abrangente e Novos Benchmarks
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Inpaint de Áudio Baseado em Tokens via Difusão Discreta
Token-based Audio Inpainting via Discrete Diffusion

LLMalMorph: Sobre a Viabilidade de Gerar Malwares Variantes Usando Modelos de Linguagem de Grande Escala
LLMalMorph: On The Feasibility of Generating Variant Malware using Large-Language-Models

Confiança Orquestrador-Agente: Um Sistema Modular de Classificação Visual por IA Agêntica com Orquestração Consciente de Confiança e Raciocínio Baseado em RAG
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

Plantado no Pré-treinamento, Moldado pelo Ajuste Fino: Um Estudo de Caso sobre as Origens dos Vieses Cognitivos em LLMs
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs