Pesquisadores do Google alertam sobre agentes de IA manipulados por prompts ocultos na web
Pesquisadores de segurança do Google estão alertando sobre uma ameaça de cibersegurança que cresce rapidamente e mira sistemas corporativos de inteligência artificial: páginas públicas maliciosas criadas especificamente para contaminar agentes de IA por meio de injeções indiretas de prompt.
De acordo com descobertas recentes, invasores e até alguns administradores de sites estão incorporando instruções invisíveis diretamente em páginas da web, usando elementos HTML ocultos, metadados ou textos disfarçados na formatação da página. Enquanto usuários humanos não veem nada incomum ao navegar por esses sites, agentes de IA que coletam o mesmo conteúdo podem processar esses comandos escondidos como se fossem instruções legítimas.
Essa tática representa uma evolução perigosa nos ataques focados em IA, saindo da manipulação direta de chatbots para a exploração de fontes externas de dados consideradas confiáveis.
A injeção indireta de prompt cria um novo ponto cego de segurança
As tentativas tradicionais de injeção de prompt geralmente envolvem usuários instruindo diretamente um modelo de IA a ignorar protocolos de segurança. Desenvolvedores de segurança passaram anos aprimorando proteções contra esse tipo mais evidente de ataque.
A injeção indireta de prompt, porém, é muito mais perigosa.
Em vez de atacar o sistema de IA diretamente, instruções maliciosas são plantadas dentro de fontes aparentemente inofensivas, como sites de portfólio, artigos, páginas de documentação ou bancos de dados. Quando agentes corporativos de IA coletam informações de forma autônoma dessas fontes, eles absorvem tanto o conteúdo visível quanto os comandos ocultos como um único fluxo de instruções.
Por exemplo, um assistente de IA de RH que analisa candidatos a vagas poderia visitar o site de um candidato e, sem perceber, encontrar um texto oculto instruindo o sistema a vazar dados internos de funcionários, alterar recomendações de contratação ou usar indevidamente recursos da empresa.
Como o sistema de IA muitas vezes possui credenciais corporativas legítimas, essas ações podem ocorrer sem acionar as defesas tradicionais de cibersegurança.
Por que a infraestrutura atual de cibersegurança tem dificuldade para detectar esses ataques
Um dos aspectos mais preocupantes da injeção indireta de prompt é que ela consegue contornar muitos sistemas tradicionais de segurança.
Firewalls, ferramentas de proteção de endpoint e plataformas de gerenciamento de identidade são projetados principalmente para detectar malware, logins suspeitos ou comportamentos de rede não autorizados. Em contraste, um agente de IA comprometido por instruções ocultas continua operando dentro das permissões que já havia recebido.
Do ponto de vista do sistema, a IA está apenas executando tarefas que estava autorizada a realizar.
Isso significa que:
- Nenhuma assinatura de malware é acionada
- Nenhum roubo de credenciais acontece
- Nenhuma tentativa de acesso não autorizado é registrada
- Nenhuma anomalia óbvia pode ser detectada
O resultado é uma forma particularmente perigosa de comprometimento interno, na qual a própria IA se torna uma ameaça interna involuntária.
Google aponta grandes fraquezas nas atuais ferramentas de observabilidade de IA
As descobertas do Google também expõem falhas importantes na indústria de observabilidade de IA, que vem crescendo rapidamente.
Muitas ferramentas corporativas de monitoramento de IA se concentram fortemente em:
- Consumo de tokens
- Latência
- Tempo de atividade do sistema
- Eficiência operacional
No entanto, poucas plataformas monitoram adequadamente a integridade das decisões ou avaliam se o comportamento de um agente de IA foi sutilmente manipulado por dados externos contaminados.
Isso cria uma falsa sensação de segurança, em que organizações acreditam que seus sistemas de IA estão funcionando corretamente, enquanto agentes maliciosos podem já estar influenciando resultados, decisões internas ou padrões de acesso a dados.
Defesas recomendadas: construindo uma camada segura de controle agentivo
Para reduzir esses riscos, pesquisadores do Google recomendam que as empresas repensem completamente a arquitetura de implantação de IA.
Sistemas de verificação com dois modelos
Uma das salvaguardas mais fortes propostas envolve separar as responsabilidades entre modelos:
- Um modelo de sanitização com privilégios reduzidos lida com a coleta de conteúdo externo
- O modelo de sanitização remove formatações ocultas e comandos suspeitos
- Apenas resumos limpos são encaminhados para sistemas de raciocínio com privilégios mais altos
Essa estrutura em camadas reduz significativamente o risco de comprometimento direto da empresa.
Estruturas de permissão com zero trust
As organizações também precisam aplicar princípios de zero trust aos próprios agentes de IA.
Por exemplo:
- Agentes de pesquisa não devem ter acesso de escrita ao CRM
- Ferramentas de análise de conteúdo não devem controlar sistemas internos de e-mail
- Modelos com acesso à navegação externa devem ter permissões corporativas mínimas
Ao compartimentalizar as capacidades da IA, agentes comprometidos são impedidos de causar danos internos em larga escala.
Auditoria completa de decisões
Toda decisão tomada por IA deve manter rastreabilidade transparente, permitindo que equipes de conformidade e segurança acompanhem:
- Quais fontes influenciaram os resultados
- Quais URLs externas foram acessadas
- Como as cadeias de raciocínio evoluíram
- Se instruções maliciosas ocultas tiveram algum papel no processo
Sem esse nível de supervisão forense, identificar comprometimentos por injeção de prompt se torna exponencialmente mais difícil.
A internet continua sendo um ambiente adversarial para IA autônoma
O alerta do Google reforça uma realidade crítica para empresas que estão acelerando a adoção de IA agentiva: a internet pública é, por natureza, um território hostil.
Sistemas de IA capazes de navegar de forma autônoma, coletar dados e se integrar a ambientes corporativos oferecem enormes oportunidades de produtividade, mas também ampliam drasticamente as superfícies de ataque.
À medida que organizações passam a depender cada vez mais de agentes de IA em tarefas ligadas a recrutamento, finanças, operações e pesquisa, proteger esses agentes contra fontes de informação adversariais se tornará tão importante quanto a própria cibersegurança tradicional.
Sem uma governança mais rígida, controles de permissão e estruturas de sanitização de conteúdo, agentes de IA podem deixar de ser apenas ferramentas de produtividade e se transformar em poderosas vulnerabilidades internas.
Perspectiva final
As descobertas do Google servem como um grande alerta para empresas que estão investindo pesado em sistemas autônomos de IA. A injeção indireta de prompt não é uma ameaça teórica, mas um vetor de ataque ativo e crescente, já presente na infraestrutura pública da web.
Conforme agentes de IA ganham mais autoridade operacional, as empresas precisam agir rapidamente para implementar modelos de governança mais fortes, sistemas avançados de validação e arquiteturas baseadas em zero trust.
O futuro da IA corporativa segura pode depender menos da inteligência dos modelos e mais do controle sobre aquilo em que esses modelos estão autorizados a acreditar.
