Como poemas conseguem contornar sistemas de segurança em IA

Siga o Olhar Do dedo no Google Discover

Tudo sobre Lucidez Sintético

Gosta de poesias? Logo saiba que, segundo pesquisadores, elas podem enganar chatbots, porquê o ChatGPT.

De consonância com a WIRED, metáforas, rimas e versos muito construídos contornam filtros de segurança, fazendo com que os modelos respondam mesmo a temas sensíveis, porquê armas nucleares.

Poesias exploram falhas em chatbots, permitindo que IAs cedam a pedidos que normalmente bloqueiam. — Poesias exploram falhas em chatbots, permitindo que IAs cedam a pedidos que normalmente bloqueiam (Imagem: SuPatMaN/Shutterstock)

Por que poemas enganam a IA

Um estudo do Icaro Lab, formado por pesquisadores da Universidade Sapienza de Roma (Itália) e do think tank DexAI, revelou um pouco preocupante: frases em forma de poema conseguem fraudar filtros de grandes modelos de linguagem. A abordagem de verso adversária alcançou taxas de sucesso de até 62% para versos escritos à mão e aproximadamente 43% para versões automatizadas.

Leia mais:

Eles testaram a técnica em 25 chatbots, incluindo IAs de empresas, porquê OpenAI, Meta e Anthropic, e a maioria cedeu ao “máscara poético”. A equipe ressalta que, ao usar metáforas, estruturas fragmentadas e versos indiretos, conseguiu fazer com que os alarmes internos das IAs não disparassem da mesma forma que com perguntas diretas.

Testes em 25 IAs revelam que perguntas sobre temas restritos, incluindo armas nucleares, podem passar despercebidas. — Testes em 25 IAs revelam que perguntas sobre temas restritos, incluindo armas nucleares, podem passar despercebidas (Imagem: Bordovski Yauheni/Shutterstock)

Porquê a verso desbloqueia o risco

A estratégia funciona porque explora o que os técnicos chamam de “temperatura subida”, apostando em palavras inesperadas e estruturas incomuns. “Na verso, vemos a linguagem em subida temperatura, onde as palavras se sucedem em sequências imprevisíveis e de baixa verosimilhança”, comentam os pesquisadores.

Eles explicam que esse estilo confunde os classificadores — sistemas que filtram pedidos perigosos. Com a abordagem poética, muitos desses filtros não acompanham o raciocínio do padrão, permitindo que solicitações potencialmente prejudiciais sejam atendidas.

Sequências imprevisíveis e de baixa probabilidade em versos dificultam a detecção por filtros de segurança de IAs. — Sequências imprevisíveis e de baixa verosimilhança em versos dificultam a detecção por filtros de segurança de IAs (Imagem: TippaPatt/Shutterstock)

Porquê evitar esse problema?

Redobre a cautela ao usar IAs para fins profissionais ou sensíveis.
Prefira chatbots com múltiplos mecanismos de segurança — não somente filtros básicos.
Avalie e monitore o código-fonte ou as políticas de segurança ao usar IAs desenvolvidas por terceiros.

Segundo o estudo, “há um desalinhamento entre a capacidade interpretativa do padrão… e a robustez de suas salvaguardas” — e isso pode ter consequências muito reais.

Participe do nosso Grupo VIP

Como poemas conseguem contornar sistemas de segurança em IA

Por que poemas enganam a IA

Porquê a verso desbloqueia o risco

Comentários (0)