Artigos de pesquisa em IA selecionados diariamente com traduções
A expansão contínua de modelos de linguagem de grande escala (LLMs) resulta em retornos decrescentes? O valor no mundo real frequentemente deriva da extensão da tarefa que um agente pode completar. Iniciamos este trabalho observando o fato simples, mas contraintuitivo, de que ganhos marginais na precisão de uma única etapa podem se transformar em melhorias exponenciais na extensão de uma tarefa que um modelo pode concluir com sucesso. Em seguida, argumentamos que as falhas dos LLMs quando tarefas simples são prolongadas surgem de erros de execução, e não de uma incapacidade de raciocinar. Propomos isolar a capacidade de execução, fornecendo explicitamente o conhecimento e o plano necessários para resolver uma tarefa de longo horizonte. Descobrimos que modelos maiores podem executar corretamente um número significativamente maior de etapas, mesmo quando modelos menores têm 100% de precisão em uma única etapa. Observamos que a precisão por etapa dos modelos se degrada à medida que o número de etapas aumenta. Isso não se deve apenas às limitações de contexto longo — curiosamente, observamos um efeito de autocondicionamento — os modelos tornam-se mais propensos a cometer erros quando o contexto contém seus erros de etapas anteriores. O autocondicionamento não é reduzido apenas pelo aumento do tamanho do modelo. Em contraste, modelos recentes de pensamento não se autocondicionam e também podem executar tarefas muito mais longas em uma única etapa. Concluímos avaliando modelos de pensamento de fronteira na extensão da tarefa que podem executar em uma única etapa. No geral, ao focar na capacidade de execução, esperamos reconciliar debates sobre como os LLMs podem resolver problemas complexos de raciocínio, mas falham em tarefas simples quando prolongadas, e destacar os enormes benefícios de escalar o tamanho do modelo e o cálculo sequencial em tempo de teste para tarefas de longo horizonte.
A geração de imagens em resolução arbitrária proporciona uma experiência visual consistente em diferentes dispositivos, com amplas aplicações tanto para produtores quanto para consumidores. Os modelos de difusão atuais aumentam a demanda computacional quadraticamente com a resolução, resultando em atrasos de mais de 100 segundos para a geração de imagens em 4K. Para resolver isso, exploramos a segunda geração de modelos de difusão latente, onde o latente fixo gerado por modelos de difusão é considerado como a representação do conteúdo, e propomos decodificar imagens em resolução arbitrária a partir de um latente compacto usando um gerador de uma única etapa. Assim, apresentamos o InfGen, que substitui o decodificador VAE pelo novo gerador, permitindo a geração de imagens em qualquer resolução a partir de um latente de tamanho fixo sem a necessidade de retreinar os modelos de difusão. Isso simplifica o processo, reduz a complexidade computacional e pode ser aplicado a qualquer modelo que utilize o mesmo espaço latente. Experimentos mostram que o InfGen é capaz de levar muitos modelos para a era de alta resolução arbitrária, reduzindo o tempo de geração de imagens em 4K para menos de 10 segundos.
A rápida adoção de agentes de IA autônomos está dando origem a uma nova camada econômica, na qual os agentes transacionam e se coordenam em escalas e velocidades que vão além da supervisão humana direta. Propomos a "economia sandbox" como um framework para analisar esse sistema emergente, caracterizando-o ao longo de duas dimensões principais: suas origens (emergente vs. intencional) e seu grau de separação da economia humana estabelecida (permeável vs. impermeável). Nossa trajetória atual aponta para o surgimento espontâneo de uma vasta e altamente permeável economia de agentes de IA, apresentando-nos oportunidades para um grau de coordenação sem precedentes, bem como desafios significativos, incluindo riscos econômicos sistêmicos e a exacerbação da desigualdade. Aqui, discutimos uma série de escolhas de design possíveis que podem levar a mercados de agentes de IA seguros e direcionáveis. Em particular, consideramos mecanismos de leilão para alocação justa de recursos e resolução de preferências, o design de "economias de missão" de IA para coordenar o alcance de objetivos coletivos, e a infraestrutura sociotécnica necessária para garantir confiança, segurança e responsabilidade. Ao fazer isso, defendemos o design proativo de mercados de agentes direcionáveis para garantir que a próxima mudança tecnológica esteja alinhada com o florescimento coletivo de longo prazo da humanidade.
A geração de formas 3D em nível de parte é crucial para aplicações subsequentes, como retopologia de malhas, mapeamento UV e impressão 3D. No entanto, os métodos existentes de geração baseada em partes frequentemente carecem de controlabilidade suficiente e sofrem com uma decomposição semanticamente significativa inadequada. Para isso, introduzimos o X-Part, um modelo generativo controlável projetado para decompor um objeto 3D holístico em partes semanticamente significativas e estruturalmente coerentes, com alta fidelidade geométrica. O X-Part utiliza caixas delimitadoras como prompts para a geração de partes e injeta características semânticas ponto a ponto para uma decomposição significativa. Além disso, projetamos um pipeline editável para a geração interativa de partes. Resultados experimentais extensivos mostram que o X-Part alcança desempenho de ponta na geração de formas em nível de parte. Este trabalho estabelece um novo paradigma para a criação de ativos 3D prontos para produção, editáveis e estruturalmente sólidos. Os códigos serão liberados para pesquisa pública.
Engajamento e motivação são cruciais para a aquisição de uma segunda língua, mas manter o interesse dos alunos em conversas educacionais continua sendo um desafio. Embora pesquisas anteriores tenham explorado o que torna textos educacionais interessantes, ainda se sabe pouco sobre as características linguísticas que impulsionam o engajamento em conversas. Para abordar essa lacuna, apresentamos o IntrEx, o primeiro grande conjunto de dados anotado para interesse e expectativa de interesse em interações professor-aluno. Baseado no Teacher-Student Chatroom Corpus (TSCC), o IntrEx amplia trabalhos anteriores ao incorporar anotações em nível de sequência, permitindo o estudo do engajamento além de turnos isolados, capturando como o interesse evolui ao longo de diálogos extensos. Empregamos um rigoroso processo de anotação com mais de 100 alunos de segunda língua, utilizando uma abordagem de avaliação comparativa inspirada no aprendizado por reforço com feedback humano (RLHF) para melhorar a concordância. Investigamos se modelos de linguagem de grande escala (LLMs) podem prever julgamentos humanos de interesse. Descobrimos que LLMs (7B/8B parâmetros) ajustados com base em avaliações de interesse superam modelos proprietários maiores, como o GPT-4o, demonstrando o potencial de conjuntos de dados especializados para modelar o engajamento em contextos educacionais. Por fim, analisamos como fatores linguísticos e cognitivos, como concretude, compreensibilidade (legibilidade) e assimilação, influenciam o engajamento em diálogos educacionais.
A abordagem de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) aprimora sistemas de resposta a perguntas e tarefas de geração de diálogo ao integrar tecnologias de recuperação de informação (IR, do inglês Information Retrieval) com modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). Essa estratégia, que recupera informações de bases de conhecimento externas para fortalecer as capacidades de resposta de modelos generativos, obteve certos sucessos. No entanto, os métodos atuais de RAG ainda enfrentam diversos desafios ao lidar com consultas de múltiplos saltos (multi-hop). Por exemplo, algumas abordagens dependem excessivamente de recuperação iterativa, desperdiçando muitas etapas de recuperação em consultas compostas. Além disso, usar a consulta complexa original para recuperação pode falhar em capturar conteúdo relevante para subconsultas específicas, resultando em conteúdo recuperado ruidoso. Se o ruído não for gerenciado, pode levar ao problema de acúmulo de ruído. Para resolver essas questões, apresentamos o HANRAG, uma nova estrutura baseada em heurística projetada para lidar eficientemente com problemas de complexidade variável. Impulsionado por um poderoso revelador, o HANRAG direciona consultas, as decompõe em subconsultas e filtra o ruído dos documentos recuperados. Isso aumenta a adaptabilidade e a resistência ao ruído do sistema, tornando-o altamente capaz de lidar com consultas diversas. Comparamos a estrutura proposta com outros métodos líderes da indústria em vários benchmarks. Os resultados demonstram que nossa estrutura obtém desempenho superior tanto em tarefas de resposta a perguntas de salto único (single-hop) quanto de múltiplos saltos (multi-hop).
À medida que os Modelos de Visão e Linguagem (VLMs) se tornam mais sofisticados, sua capacidade de realizar raciocínio está recebendo uma supervisão cada vez maior. Embora se destaquem em muitas tarefas, sua compreensão de princípios científicos fundamentais, como física, permanece uma fronteira pouco explorada. Para refletir os avanços nessas capacidades, introduzimos uma estrutura nova e acessível projetada para avaliar rigorosamente os VLMs em sua compreensão da física 2D. Nossa estrutura apresenta um gerador de cenários pragmático que cria um conjunto diversificado de mais de 400 problemas em quatro domínios principais: Movimento de Projéteis, Dinâmica de Colisões, Mecânica e Dinâmica de Fluidos. Por meio de uma avaliação abrangente de quatro VLMs de última geração, demonstramos uma forte correlação entre a escala do modelo e a capacidade de raciocínio, com nosso modelo de melhor desempenho, Qwen2.5-VL-7B, alcançando uma pontuação geral de 0,815. Descobrimos que, embora os modelos se destaquem em problemas formulados, eles lutam significativamente com domínios que exigem raciocínio espacial abstrato. Ao projetar essa estrutura, nosso objetivo é democratizar o estudo do raciocínio científico em VLMs e promover insights mais profundos sobre suas capacidades e limitações.
Modelos de linguagem de grande escala com difusão mascarada (dLLMs) estão surgindo como alternativas promissoras aos LLMs autoregressivos, oferecendo desempenho competitivo ao mesmo tempo que suportam capacidades únicas de geração, como inpainting. Exploramos como o inpainting pode informar o design de algoritmos de RL para dLLMs. Alinhar LLMs com aprendizado por reforço enfrenta um desafio de exploração: sinais de recompensa esparsos e desperdício de amostras quando os modelos falham em descobrir soluções corretas. Embora essa ineficiência afete LLMs de forma ampla, dLLMs oferecem uma oportunidade distinta—sua capacidade de inpainting pode guiar a exploração. Introduzimos o IGPO (Otimização de Política Guiada por Inpainting), um framework de RL que insere estrategicamente traços de raciocínio parcialmente verdadeiros durante a amostragem online. Diferente de fornecer soluções completas, o inpainting direciona a exploração para espaços de trajetória promissores, preservando o raciocínio autogerado, fazendo a ponte entre ajuste fino supervisionado e aprendizado por reforço. Aplicamos o IGPO a métodos de otimização baseados em grupo, como GRPO, onde falhas de exploração resultam em vantagens e gradientes zero. O IGPO restaura gradientes significativos enquanto melhora a eficiência de amostragem. Também propomos ajuste fino supervisionado em traços concisos reescritos sinteticamente que se alinham melhor com os padrões de geração de dLLMs. Com técnicas adicionais, incluindo filtragem baseada em entropia, nossa receita de treinamento produz ganhos substanciais em três benchmarks matemáticos—GSM8K, Math500 e AMC—alcançando novos resultados state-of-the-art para dLLMs mascarados com atenção completa.
O Model Context Protocol (MCP) está emergindo rapidamente como um padrão aberto fundamental, projetado para aprimorar a integração e interoperabilidade entre agentes e ferramentas, e está posicionado para desbloquear uma nova era de IA agentiva poderosa, interconectada e genuinamente utilitária. No entanto, apesar da crescente adoção do MCP, os benchmarks existentes frequentemente falham em capturar o desempenho real dos agentes dentro desse novo paradigma, levando a uma percepção distorcida de seu verdadeiro valor operacional e à incapacidade de diferenciar de forma confiável as proficiências. Para preencher essa lacuna crítica de avaliação, introduzimos o MCP-AgentBench — um benchmark abrangente especificamente projetado para avaliar rigorosamente as capacidades de agentes de linguagem em interações mediadas por MCP. As principais contribuições do MCP-AgentBench incluem: a criação de um ambiente de teste robusto para MCP, composto por 33 servidores operacionais com 188 ferramentas distintas; o desenvolvimento de um benchmark com 600 consultas sistematicamente projetadas, distribuídas em 6 categorias distintas com complexidades variadas de interação; e a introdução do MCP-Eval, uma nova metodologia de avaliação orientada a resultados que prioriza o sucesso em tarefas do mundo real. Por meio de uma extensa avaliação empírica de agentes de linguagem líderes, fornecemos insights fundamentais. O MCP-AgentBench visa equipar a comunidade de pesquisa com um framework padronizado e confiável para construir, validar e avançar agentes capazes de aproveitar plenamente os benefícios transformadores do MCP, acelerando assim o progresso em direção a sistemas de IA verdadeiramente capazes e interoperáveis.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades impressionantes em raciocínio financeiro e compreensão de mercado. Estruturas multiagente de LLMs, como TradingAgent e FINMEM, aprimoram esses modelos para tarefas de investimento de longo prazo, utilizando entradas fundamentais e baseadas em sentimento para tomadas de decisão estratégica. No entanto, tais sistemas são inadequados para as demandas de alta velocidade e precisão crítica do Comércio de Alta Frequência (HFT). O HFT requer decisões rápidas e conscientes do risco, baseadas em sinais estruturados de curto prazo, incluindo indicadores técnicos, padrões gráficos e características baseadas em tendências, distintos do raciocínio semântico de longo prazo típico das aplicações tradicionais de LLMs financeiros. Para isso, introduzimos o QuantAgent, a primeira estrutura multiagente de LLM explicitamente projetada para o comércio algorítmico de alta frequência. O sistema decompõe o comércio em quatro agentes especializados: Indicador, Padrão, Tendência e Risco, cada um equipado com ferramentas específicas do domínio e capacidades de raciocínio estruturado para capturar aspectos distintos da dinâmica do mercado em janelas temporais curtas. Em avaliações zero-shot em dez instrumentos financeiros, incluindo Bitcoin e futuros da Nasdaq, o QuantAgent demonstra desempenho superior tanto em precisão preditiva quanto em retorno cumulativo em intervalos de negociação de 4 horas, superando fortes linhas de base neurais e baseadas em regras. Nossos achados sugerem que a combinação de conhecimentos financeiros estruturados com raciocínio nativo da linguagem abre novo potencial para sistemas de decisão rastreáveis e em tempo real em mercados financeiros de alta frequência.
O desenvolvimento de políticas eficientes de Visão-Linguagem-Ação (VLA) é crucial para a implantação prática da robótica, mas as abordagens atuais enfrentam custos computacionais e requisitos de recursos proibitivos. As políticas VLA baseadas em difusão existentes exigem modelos com bilhões de parâmetros e conjuntos de dados massivos para alcançar um desempenho robusto. Abordamos esse desafio de eficiência com duas contribuições: a fusão de modalidades intermediárias, que realoca a capacidade para o cabeçalho de difusão ao podar até 50% das camadas do LLM, e o condicionamento Global-AdaLN específico para ações, que reduz os parâmetros em 20% por meio de adaptação modular. Integramos esses avanços em um novo VLA de 950 milhões de parâmetros chamado FLOWER. Pré-treinado em apenas 200 horas de GPU H100, o FLOWER oferece um desempenho competitivo com VLAs maiores em 190 tarefas que abrangem dez benchmarks de simulação e mundo real e demonstra robustez em diversas implementações robóticas. Além disso, o FLOWER alcança um novo estado da arte (SoTA) de 4,53 no benchmark CALVIN ABC. Demonstrações, código e pesos pré-treinados estão disponíveis em https://intuitive-robots.github.io/flower_vla/.
O aprendizado de cauda longa tem recebido crescente atenção devido à sua ampla aplicabilidade em cenários do mundo real. Entre as abordagens existentes, o Aprendizado Semi-Supervisionado de Cauda Longa (LTSSL, na sigla em inglês) emergiu como uma solução eficaz ao incorporar uma grande quantidade de dados não rotulados em conjuntos de dados rotulados desbalanceados. No entanto, a maioria dos métodos anteriores de LTSSL foi projetada para treinar modelos do zero, o que frequentemente leva a problemas como excesso de confiança e pseudo-rótulos de baixa qualidade. Para enfrentar esses desafios, estendemos o LTSSL para o paradigma de ajuste fino de modelos de base e propomos uma nova estrutura: LoFT (Aprendizado Semi-Supervisionado de Cauda Longa via Ajuste Fino Eficiente em Parâmetros). Demonstramos que modelos de base ajustados podem gerar pseudo-rótulos mais confiáveis, beneficiando assim o aprendizado desbalanceado. Além disso, exploramos um cenário mais prático ao investigar o aprendizado semi-supervisionado em condições de mundo aberto, onde os dados não rotulados podem incluir amostras fora da distribuição (OOD, na sigla em inglês). Para lidar com esse problema, propomos o LoFT-OW (LoFT em Cenários de Mundo Aberto) para melhorar a capacidade discriminativa. Resultados experimentais em múltiplos benchmarks demonstram que nosso método alcança desempenho superior em comparação com abordagens anteriores, mesmo utilizando apenas 1% dos dados não rotulados em relação aos trabalhos prévios.
Apresentamos o Probabilistic Structure Integration (PSI), um sistema para aprender modelos de mundo ricamente controláveis e flexivelmente acionáveis a partir de dados. O PSI consiste em um ciclo de três etapas. A primeira etapa, Predição Probabilística, envolve a construção de um modelo gráfico probabilístico Psi dos dados, na forma de um modelo de sequência autorregressivo de acesso aleatório. O Psi suporta um conjunto completo de distribuições condicionais aprendidas que descrevem a dependência de quaisquer variáveis nos dados em relação a qualquer outro conjunto de variáveis. Na etapa 2, Extração de Estrutura, mostramos como extrair propriedades subjacentes de baixa dimensionalidade nos dados, correspondendo a um conjunto diversificado de "estruturas intermediárias" significativas, de forma zero-shot por meio de inferência causal no Psi. A etapa 3, Integração, completa o ciclo convertendo essas estruturas em novos tipos de tokens que são então continuamente reintegrados na dieta de treinamento como sinais de condicionamento e alvos de predição. Cada ciclo desse tipo amplia as capacidades do Psi, permitindo que ele modele melhor os dados subjacentes e criando novos pontos de controle — semelhantes a uma linguagem universal de acionamento, como em um LLM. Treinamos uma instância do Psi em 1,4 trilhão de tokens de dados de vídeo da internet; usamos isso para realizar uma variedade de inferências úteis de previsão e compreensão de vídeo; extraímos fluxo óptico de última geração, profundidade auto-supervisionada e segmentação de objetos; e usamos essas estruturas para apoiar um ciclo completo de melhorias preditivas.
O alinhamento preciso de cores na geração de texto para imagem (T2I) é crucial para aplicações como moda, visualização de produtos e design de interiores, mas os modelos de difusão atuais enfrentam dificuldades com termos de cores sutis e compostos (por exemplo, azul Tiffany, verde-limão, rosa-choque), frequentemente produzindo imagens que não correspondem à intenção humana. As abordagens existentes dependem de manipulação de atenção cruzada, imagens de referência ou ajuste fino, mas falham em resolver sistematicamente descrições de cores ambíguas. Para renderizar cores com precisão diante da ambiguidade do prompt, propomos uma estrutura livre de treinamento que melhora a fidelidade das cores ao aproveitar um modelo de linguagem de grande escala (LLM) para desambiguar prompts relacionados a cores e guiar operações de mistura de cores diretamente no espaço de incorporação de texto. Nosso método primeiro emprega um LLM para resolver termos de cores ambíguos no prompt de texto e, em seguida, refina as incorporações de texto com base nas relações espaciais dos termos de cores resultantes no espaço de cores CIELAB. Diferente de métodos anteriores, nossa abordagem melhora a precisão das cores sem exigir treinamento adicional ou imagens de referência externas. Resultados experimentais demonstram que nossa estrutura melhora o alinhamento de cores sem comprometer a qualidade da imagem, reduzindo a lacuna entre a semântica do texto e a geração visual.
Modelos de linguagem falada (SLMs, do inglês Spoken Language Models) surgiram como um paradigma unificado para compreensão e geração de fala, permitindo interações homem-máquina naturais. No entanto, embora a maior parte dos avanços tenha se concentrado na precisão semântica e no seguimento de instruções, a capacidade dos SLMs de adaptar seu estilo de fala com base em instruções faladas recebeu atenção limitada. Introduzimos a Adaptação de Estilo de Voz (VSA, do inglês Voice Style Adaptation), uma nova tarefa que examina se os SLMs podem modificar seu estilo de fala, como timbre, prosódia ou persona, seguindo comandos de linguagem natural falados. Para estudar essa tarefa, apresentamos o VStyle, um benchmark bilíngue (chinês e inglês) que abrange quatro categorias de geração de fala: atributos acústicos, instruções de linguagem natural, interpretação de papéis e empatia implícita. Também introduzimos o framework Large Audio Language Model as a Judge (LALM as a Judge), que avalia progressivamente as saídas em termos de fidelidade textual, aderência ao estilo e naturalidade, garantindo uma avaliação reproduzível e objetiva. Experimentos com sistemas comerciais e SLMs de código aberto demonstram que os modelos atuais enfrentam limitações claras na adaptação controlável de estilo, destacando tanto a novidade quanto o desafio dessa tarefa. Ao disponibilizar o VStyle e seu kit de ferramentas de avaliação, nosso objetivo é fornecer à comunidade uma base para avançar na interação falada centrada no ser humano. O conjunto de dados e o código estão publicamente disponíveis em https://junzhan2000.github.io/VStyle.github.io/{página inicial do projeto}.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável em diversos domínios. No entanto, uma questão fundamental permanece: Os LLMs podem utilizar efetivamente o conhecimento causal para previsão e geração? Por meio de estudos empíricos, descobrimos que os LLMs treinados diretamente em dados em grande escala frequentemente capturam correlações espúrias em vez de relações causais verdadeiras, resultando em desempenho subótimo, especialmente em cenários fora da distribuição (OOD). Para enfrentar esse desafio, propomos o Ajuste de Atenção Causal (CAT), uma abordagem inovadora que injeta conhecimento causal refinado no mecanismo de atenção. Propomos um pipeline automatizado que aproveita conhecimentos prévios humanos para gerar automaticamente sinais causais no nível de tokens e introduzimos o mecanismo de Re-Atenção para orientar o treinamento, ajudando o modelo a focar em estruturas causais enquanto mitiga ruídos e vieses nos escores de atenção. Resultados experimentais em nosso benchmark proposto, o Jogo de Tokens Espúrios (STG), e em múltiplas tarefas subsequentes demonstram que nossa abordagem utiliza efetivamente o conhecimento causal para previsão e permanece robusta em cenários OOD. Detalhes de implementação podem ser encontrados em https://github.com/Kairong-Han/CAT.
A incorporação de contexto externo pode melhorar significativamente a qualidade das respostas de Modelos de Linguagem de Grande Escala (LLMs). No entanto, contextos do mundo real frequentemente misturam informações relevantes com conteúdo inadequado desproporcional, apresentando riscos de confiabilidade. Como os LLMs processam e priorizam contextos mistos? Para estudar isso, introduzimos o Testbed de Contexto Envenenado, emparelhando consultas com contextos do mundo real que contêm conteúdo relevante e inadequado. Inspirados pela aprendizagem associativa em animais, adaptamos o modelo Rescorla-Wagner (RW) da neurociência para quantificar como sinais contextuais concorrentes influenciam as saídas dos LLMs. Nosso modelo adaptado revela um padrão comportamental consistente: os LLMs exibem uma forte tendência a incorporar informações que são menos prevalentes no contexto. Essa suscetibilidade é prejudicial em cenários do mundo real, onde pequenas quantidades de conteúdo inadequado podem degradar substancialmente a qualidade da resposta. Avaliações empíricas em nosso testbed confirmam ainda mais essa vulnerabilidade. Para enfrentar esse problema, introduzimos o RW-Steering, uma abordagem baseada em ajuste fino em duas etapas que permite ao modelo identificar e ignorar internamente sinais inadequados. Diferente de métodos anteriores que dependem de supervisão extensa em diversas misturas de contexto, o RW-Steering generaliza de forma robusta em diferentes proporções de conteúdo inadequado. Experimentos mostram que nosso melhor modelo ajustado melhora a qualidade da resposta em 39,8% e reverte a curva de comportamento indesejável, estabelecendo o RW-Steering como uma solução robusta e generalizável de engenharia de contexto para melhorar a segurança dos LLMs em uso no mundo real.
O raciocínio visual sobre dados estruturados, como tabelas, é uma capacidade crítica para modelos modernos de visão e linguagem (VLMs), mas os benchmarks atuais permanecem limitados em escala, diversidade ou profundidade de raciocínio, especialmente quando se trata de imagens de tabelas renderizadas. Para preencher essa lacuna, apresentamos o Visual-TableQA, um conjunto de dados multimodal de grande escala e domínio aberto, especificamente projetado para avaliar e aprimorar o raciocínio visual sobre dados tabulares complexos. Nosso pipeline de geração é modular, escalável e totalmente autônomo, envolvendo múltiplos LLMs de raciocínio colaborando em papéis distintos: geração, validação e inspiração. O Visual-TableQA compreende 2,5 mil tabelas ricamente estruturadas renderizadas em LaTeX e 6 mil pares de perguntas e respostas intensivas em raciocínio, todos produzidos a um custo inferior a USD 100. Para promover diversidade e criatividade, nosso pipeline realiza a geração colaborativa de dados por meio de múltiplos modelos via prompt cruzado ('inspiração') e filtragem por júri de LLMs. Modelos mais fortes sugerem layouts e tópicos que modelos mais fracos elaboram, destilando coletivamente diversos padrões de raciocínio e estruturas visuais no conjunto de dados. Resultados empíricos mostram que modelos ajustados no Visual-TableQA generalizam robustamente para benchmarks externos, superando vários modelos proprietários, apesar da natureza sintética do conjunto de dados. O pipeline completo e os recursos estão publicamente disponíveis em https://github.com/AI-4-Everyone/Visual-TableQA.
Este artigo de sistema apresenta as abordagens da equipe DeMeVa para a terceira edição da tarefa compartilhada Learning with Disagreements (LeWiDi 2025; Leonardelli et al., 2025). Exploramos duas direções: aprendizado em contexto (ICL) com grandes modelos de linguagem, onde comparamos estratégias de amostragem de exemplos; e métodos de aprendizado de distribuição de rótulos (LDL) com RoBERTa (Liu et al., 2019b), onde avaliamos várias técnicas de ajuste fino. Nossas contribuições são duplas: (1) demonstramos que o ICL pode prever efetivamente anotações específicas de anotadores (anotações perspectivistas), e que agregar essas previsões em rótulos suaves resulta em desempenho competitivo; e (2) argumentamos que os métodos LDL são promissores para previsões de rótulos suaves e merecem maior exploração pela comunidade perspectivista.
Modelos de linguagem de grande escala (LLMs) estão transformando rapidamente a pesquisa em ciências sociais ao permitir a automação de tarefas intensivas em mão de obra, como anotação de dados e análise de texto. No entanto, as saídas dos LLMs variam significativamente dependendo das escolhas de implementação feitas pelos pesquisadores (por exemplo, seleção do modelo, estratégia de prompt ou configurações de temperatura). Essa variação pode introduzir vieses sistemáticos e erros aleatórios, que se propagam para análises subsequentes e causam erros do Tipo I, Tipo II, Tipo S ou Tipo M. Chamamos isso de "hacking de LLM". Quantificamos o risco de hacking de LLM replicando 37 tarefas de anotação de dados de 21 estudos de pesquisa em ciências sociais publicados com 18 modelos diferentes. Analisando 13 milhões de rótulos gerados por LLMs, testamos 2.361 hipóteses realistas para medir como escolhas plausíveis dos pesquisadores afetam as conclusões estatísticas. Encontramos conclusões incorretas com base em dados anotados por LLMs em aproximadamente uma em cada três hipóteses para modelos de última geração e em metade das hipóteses para modelos de linguagem menores. Embora nossos resultados mostrem que um melhor desempenho na tarefa e capacidades gerais superiores do modelo reduzem o risco de hacking de LLM, mesmo modelos altamente precisos não o eliminam completamente. O risco de hacking de LLM diminui à medida que os tamanhos dos efeitos aumentam, indicando a necessidade de uma verificação mais rigorosa de descobertas próximas aos limiares de significância. Nossa análise extensiva de técnicas de mitigação de hacking de LLM enfatiza a importância das anotações humanas na redução de falsos positivos e na melhoria da seleção de modelos. Surpreendentemente, técnicas comuns de correção de estimadores de regressão são amplamente ineficazes na redução do risco de hacking de LLM, pois envolvem um grande trade-off entre erros do Tipo I e Tipo II. Além de erros acidentais, descobrimos que o hacking intencional de LLMs é inaceitavelmente simples. Com poucos LLMs e apenas algumas paráfrases de prompt, qualquer coisa pode ser apresentada como estatisticamente significativa.
As línguas minoritárias na China, como tibetano, uigur e mongol tradicional, enfrentam desafios significativos devido aos seus sistemas de escrita únicos, que diferem dos padrões internacionais. Essa discrepância resultou em uma grave escassez de corpora relevantes, especialmente para tarefas supervisionadas como a geração de manchetes. Para abordar essa lacuna, introduzimos um novo conjunto de dados, o Chinese Minority Headline Generation (CMHG), que inclui 100.000 entradas para tibetano e 50.000 entradas cada para uigur e mongol, especificamente curadas para tarefas de geração de manchetes. Além disso, propomos um conjunto de testes de alta qualidade anotado por falantes nativos, projetado para servir como referência para pesquisas futuras nesse domínio. Esperamos que esse conjunto de dados se torne um recurso valioso para o avanço da geração de manchetes em línguas minoritárias chinesas e contribua para o desenvolvimento de benchmarks relacionados.