Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais incumbidos da geração criativa, incluindo a simulação de personagens ficcionais. No entanto, a sua capacidade de retratar personas antagónicas e não pró-sociais permanece amplamente não examinada. Colocamos a hipótese de que o alinhamento de segurança dos LLMs modernos cria um conflito fundamental com a tarefa de representar autenticamente personagens moralmente ambíguas ou vilanescas. Para investigar isto, apresentamos o benchmark Moral RolePlay, um novo conjunto de dados que apresenta uma escala de alinhamento moral de quatro níveis e um conjunto de testes equilibrado para avaliação rigorosa. Atribuímos a LLMs de última geração a tarefa de representar personagens, desde paradigmas de moralidade até vilões puros. A nossa avaliação em larga escala revela um declínio consistente e monótono na fidelidade da representação à medida que a moralidade da personagem diminui. Verificamos que os modelos têm mais dificuldade com traços diretamente antitéticos aos princípios de segurança, como "Enganador" e "Manipulador", substituindo frequentemente a malevolência subtil por agressão superficial. Além disso, demonstramos que a proficiência geral de um chatbot é um mau indicador da sua capacidade de representar vilões, com modelos altamente alinhados com a segurança a terem um desempenho particularmente fraco. O nosso trabalho fornece a primeira evidência sistemática desta limitação crítica, destacando uma tensão fundamental entre a segurança do modelo e a fidelidade criativa. O nosso benchmark e descobertas abrem caminho para o desenvolvimento de métodos de alinhamento mais subtis e conscientes do contexto.
A captura de relações espaciais a partir de entradas visuais é um pilar fundamental da inteligência geral semelhante à humana. Vários estudos anteriores tentaram melhorar a consciência espacial de Modelos de Visão e Linguagem (VLMs) adicionando codificadores especializados extras, o que acarreta sobrecarga adicional e geralmente prejudica as capacidades gerais. Para aprimorar a habilidade espacial em arquiteturas gerais, introduzimos o Ajuste Espacial Visual (VST), um framework abrangente para cultivar VLMs com habilidades visuoespaciais humanoides, desde a percepção espacial até o raciocínio. Primeiro, tentamos melhorar a percepção espacial em VLMs construindo um grande conjunto de dados denominado VST-P, que compreende 4,1 milhões de amostras abrangendo 19 habilidades em visões únicas, múltiplas imagens e vídeos. Em seguida, apresentamos o VST-R, um conjunto de dados curado com 135 mil amostras que instruem os modelos a raciocinar no espaço. Em particular, adotamos um pipeline de treinamento progressivo: ajuste fino supervisionado para construir conhecimento espacial fundamental, seguido de aprendizado por reforço para melhorar ainda mais as habilidades de raciocínio espacial. Sem o efeito colateral nas capacidades gerais, o VST proposto alcança consistentemente resultados state-of-the-art em vários benchmarks espaciais, incluindo 34,8% no MMSI-Bench e 61,2% no VSIBench. Demonstra-se que os Modelos de Visão-Linguagem-Ação podem ser significativamente aprimorados com o paradigma de ajuste espacial proposto, abrindo caminho para uma IA mais fundamentada fisicamente.
Os modelos multimodais agentivos não devem apenas compreender texto e imagens, mas também invocar ativamente ferramentas externas, como ambientes de execução de código e buscas na web, integrando essas operações no raciocínio. Neste trabalho, apresentamos o DeepEyesV2 e exploramos como construir um modelo multimodal agentivo sob as perspectivas de construção de dados, métodos de treinamento e avaliação do modelo. Observamos que o uso exclusivo de aprendizado por reforço direto não induz comportamentos robustos de utilização de ferramentas. Esse fenômeno motiva um pipeline de treinamento em dois estágios: uma fase de inicialização para estabelecer padrões de uso de ferramentas, e uma fase de aprendizado por reforço para refinar ainda mais a invocação de ferramentas. Curadamos um conjunto de dados de treinamento diversificado e moderadamente desafiador, incluindo especificamente exemplos onde o uso de ferramentas é benéfico. Introduzimos ainda o RealX-Bench, um benchmark abrangente projetado para avaliar o raciocínio multimodal no mundo real, que requer inerentemente a integração de múltiplas capacidades, incluindo percepção, busca e raciocínio. Avaliamos o DeepEyesV2 no RealX-Bench e em outros benchmarks representativos, demonstrando sua eficácia em tarefas de compreensão do mundo real, raciocínio matemático e tarefas intensivas em busca. Além disso, o DeepEyesV2 exibe invocação de ferramentas adaptativa à tarefa, tendendo a usar operações de imagem para tarefas de percepção e computações numéricas para tarefas de raciocínio. O aprendizado por reforço permite ainda combinações complexas de ferramentas e capacita o modelo a invocar ferramentas seletivamente com base no contexto. Esperamos que nosso estudo possa fornecer orientações para a comunidade no desenvolvimento de modelos multimodais agentivos.
Os LLMs podem realizar raciocínio de múltiplas etapas através da Cadeia de Pensamento (CoT), mas não conseguem verificar de forma confiável a sua própria lógica. Mesmo quando chegam a respostas corretas, o raciocínio subjacente pode conter falhas, o que prejudica a confiança em cenários de alto risco. Para mitigar este problema, introduzimos o VeriCoT, um método neuro-simbólico que extrai e verifica argumentos lógicos formais a partir do raciocínio CoT. O VeriCoT formaliza cada etapa do raciocínio CoT em lógica de primeira ordem e identifica premissas que fundamentam o argumento no contexto da fonte, no conhecimento de senso comum ou em etapas de raciocínio anteriores. A representação simbólica permite que solucionadores automatizados verifiquem a validade lógica, enquanto as premissas em linguagem natural permitem que humanos e sistemas identifiquem etapas de raciocínio infundadas ou falaciosas. Experimentos nos conjuntos de dados ProofWriter, LegalBench e BioASQ mostram que o VeriCoT identifica efetivamente raciocínios falhos e serve como um forte preditor da correção da resposta final. Também aproveitamos o sinal de verificação do VeriCoT para (1) autorreflexão em tempo de inferência, (2) ajuste fino supervisionado (SFT) em conjuntos de dados destilados pelo VeriCoT e (3) ajuste fino por preferência (PFT) com otimização direta de preferência (DPO) usando recompensas pareadas baseadas em verificação, melhorando ainda mais a validade e a precisão do raciocínio.
Os agentes no mundo real precisam fazer julgamentos não apenas lógicos, mas também oportunos. Isso exige uma consciência contínua do ambiente dinâmico: perigos emergem, oportunidades surgem e outros agentes agem, enquanto o raciocínio do agente ainda está em desenvolvimento. Apesar dos avanços no raciocínio de modelos de linguagem, as abordagens existentes não conseguem considerar essa natureza dinâmica. Introduzimos o raciocínio em tempo real como uma nova formulação de problema para agentes em ambientes em evolução e construímos o Real-Time Reasoning Gym para demonstrá-lo. Estudamos dois paradigmas para implantar modelos de linguagem em agentes: (1) agentes reativos, que empregam modelos de linguagem com computação de raciocínio limitada para respostas rápidas, e (2) agentes de planejamento, que permitem computação de raciocínio estendida para problemas complexos. Nossos experimentos mostram que mesmo os modelos mais avançados lutam para fazer julgamentos lógicos e oportunos em qualquer um dos paradigmas. Para superar essa limitação, propomos o AgileThinker, que engaja simultaneamente ambos os paradigmas de raciocínio. O AgileThinker supera consistentemente os agentes que utilizam apenas um paradigma de raciocínio à medida que a dificuldade da tarefa e a pressão temporal aumentam, equilibrando efetivamente a profundidade do raciocínio e a latência de resposta. Nosso trabalho estabelece o raciocínio em tempo real como um campo de testes crítico para o desenvolvimento de agentes práticos e fornece uma base para pesquisas em sistemas de IA com restrições temporais, destacando um caminho para agentes capacitados para atuação em tempo real.
Os avanços recentes na integração entre movimento humano 3D e linguagem têm-se concentrado principalmente na geração de texto-para-movimento, deixando a tarefa de compreensão de movimento relativamente inexplorada. Apresentamos a Legenda Densa de Movimento, uma nova tarefa que visa localizar temporalmente e descrever ações dentro de sequências de movimento humano 3D. Os conjuntos de dados atuais são insuficientes por não fornecerem anotações temporais detalhadas e consistirem predominantemente em sequências curtas com poucas ações. Para superar estas limitações, apresentamos o Complex Motion Dataset (CompMo), o primeiro conjunto de dados em larga escala com sequências de movimento complexas e ricamente anotadas, com limites temporais precisos. Construído através de um pipeline de geração de dados cuidadosamente concebido, o CompMo inclui 60.000 sequências de movimento, cada uma composta por múltiplas ações que variam de pelo menos duas a dez, anotadas com precisão quanto às suas extensões temporais. Apresentamos ainda o DEMO, um modelo que integra um grande modelo de linguagem com um adaptador de movimento simples, treinado para gerar legendas densas e temporalmente fundamentadas. Nossos experimentos mostram que o DEMO supera substancialmente os métodos existentes tanto no CompMo como em benchmarks adaptados, estabelecendo uma base robusta para pesquisas futuras em compreensão e legendagem de movimento 3D.
Neste trabalho, identificamos um viés inerente nas arquiteturas predominantes de LVLM em relação à modalidade linguística, resultante em grande parte da prática comum de simplesmente anexar embeddings visuais à sequência de texto de entrada. Para resolver essa questão, propomos um método simples, porém eficaz, que refina os embeddings textuais por meio da integração de características visuais com pooling médio. Nossa abordagem demonstra melhoria na fundamentação visual e redução significativa de alucinações em benchmarks estabelecidos. Embora o pooling médio ofereça um meio direto, robusto e eficiente de incorporar informações visuais, acreditamos que métodos de fusão mais sofisticados poderiam aprimorar ainda mais a fundamentação visual e o alinhamento multimodal. Dado que o foco principal deste trabalho é destacar o desequilíbrio entre modalidades e seu impacto nas alucinações — e demonstrar que o refinamento de embeddings textuais com informações visuais mitiga esse problema — deixamos a exploração de estratégias avançadas de fusão para trabalhos futuros.
A reparação automática de programas (APR) tem recentemente migrado para modelos de linguagem de grande escala e sistemas baseados em agentes, contudo, a maioria dos sistemas depende de contexto de instantâneo local, negligenciando o histórico do repositório. Trabalhos anteriores demonstram que o histórico do repositório auxilia na reparação de *bugs* de linha única, uma vez que o último *commit* que tocou na linha problemática é frequentemente aquele que introduziu o erro. Neste artigo, investigamos se o histórico do repositório também pode melhorar sistemas de APR agentivos em escala, especialmente para *bugs* complexos de múltiplos *hunks*. Apresentamos o HAFixAgent, um Agente de Correção de *Bugs* Consciente do Histórico que injeta heurísticas de repositório derivadas de *blame* no seu ciclo de reparação. Um estudo preliminar de todos os 854 *bugs* do mundo real do Defects4J motiva o nosso desenho, mostrando que o histórico relevante para o *bug* está amplamente disponível e altamente concentrado. A comparação empírica do HAFixAgent com duas *baselines* state-of-the-art mostra: (1) **Eficácia**: O HAFixAgent melhora significativamente em relação à *baseline* baseada em agente (em 212,3%) e à *baseline* para múltiplos *hunks* (em 29,9%). (2) **Eficiência**: o histórico não aumenta significativamente os passos do agente e mantém os custos de *tokens* comparáveis, com custos medianos notavelmente mais baixos para *bugs* complexos de múltiplos ficheiros e múltiplos *hunks*. (3) **Praticidade**: combinar diferentes heurísticas históricas repara mais *bugs*, oferecendo uma clara relação custo-benefício. O HAFixAgent oferece uma receita prática para APR agentivo consciente do histórico: fundamentar o agente no histórico de controlo de versões, priorizar o contexto histórico baseado em *diff* e integrar heurísticas complementares quando necessário.
A calibração precisa da confiança em Modelos de Linguagem de Grande Escala (LLMs) é crítica para o uso seguro em domínios de alto risco, onde uma confiança verbalizada clara aumenta a confiança do utilizador. Os métodos tradicionais que imitam expressões de confiança de referência frequentemente falham em capturar o raciocínio necessário para uma avaliação precisa da confiança. Propomos as críticas em linguagem natural como uma solução, idealmente adequadas para a calibração de confiança, uma vez que rótulos de confiança "gold" precisos são difíceis de obter e frequentemente exigem múltiplas gerações. Este artigo estuda como as críticas em linguagem natural podem melhorar a confiança verbalizada, abordando: (1) O que criticar: incerteza (focada na pergunta) ou confiança (específica da resposta)? A análise mostra que a confiança é adequada para tarefas de escolha múltipla, enquanto a incerteza se destaca em cenários de resposta aberta. (2) Como criticar: auto-crítica ou treino de calibração por crítica? Propomos a Auto-Crítica, que permite aos LLMs criticar e otimizar a sua confiança para além da mera precisão, e o CritiCal, um novo método de treino de Calibração por Crítica que aproveita as críticas em linguagem natural para melhorar a calibração da confiança, indo além da otimização numérica direta. Experiências mostram que o CritiCal supera significativamente a Auto-Crítica e outras linhas de base competitivas, ultrapassando mesmo o seu modelo professor, o GPT-4o, em tarefas de raciocínio complexo. O CritiCal também mostra uma generalização robusta em configurações fora da distribuição, avançando a fiabilidade dos LLMs.
Os recentes avanços em modelos de linguagem (ML) de contexto longo permitiram entradas de milhões de tokens, expandindo suas capacidades em tarefas complexas, como agentes de uso computacional. No entanto, as implicações de segurança desses contextos estendidos permanecem pouco claras. Para preencher essa lacuna, introduzimos o NINJA (abreviação de *Needle-in-haystack jailbreak attack*), um método que realiza *jailbreak* em MLs alinhados anexando conteúdo benigno, gerado pelo modelo, a objetivos maliciosos do usuário. Crucial para nosso método é a observação de que a posição dos objetivos maliciosos desempenha um papel importante na segurança. Experimentos no benchmark de segurança padrão, HarmBench, mostram que o NINJA aumenta significativamente as taxas de sucesso de ataques em modelos proprietários e de última geração de código aberto, incluindo LLaMA, Qwen, Mistral e Gemini. Diferente de métodos anteriores de *jailbreak*, nossa abordagem é de baixo recurso, transferível e menos detectável. Além disso, mostramos que o NINJA é computacionalmente ideal — sob um orçamento computacional fixo, aumentar o comprimento do contexto pode superar o aumento do número de tentativas no *jailbreak* do tipo *best-of-N*. Essas descobertas revelam que mesmo contextos longos benignos — quando elaborados com um posicionamento cuidadoso do objetivo — introduzem vulnerabilidades fundamentais nos MLs modernos.