Estás a preparar um conjunto de dados para um modelo de machine learning, ou talvez estás a fazer uma análise de frequência de palavras, e de repente os resultados são um caos. "Olá," e "Olá" são contados como duas palavras diferentes. "Não's" divide-se em tokens que não pediste. O culpado não é o teu código — é a pontuação que se esconde tranquilamente no teu texto, complicando tudo mais do que o necessário.
O que faz realmente o Remove Punctuation
O Remove Punctuation elimina cada sinal de pontuação do teu texto — vírgulas, pontos, pontos de exclamação, pontos de interrogação, dois pontos, ponto e vírgula, aspas, hífens, parênteses e tudo o mais. O que fica são palavras puras e espaços, nada mais.
Por exemplo, se colares isto:
Olá, mundo! É um "ótimo" dia — não é?
Obtens isto:
Olá mundo É um ótimo dia não é
Texto limpo, sem pontuação, pronto para o que precisares de fazer com ele a seguir.
Como usar
- Cola o teu texto na caixa de entrada.
- Clica em Remover pontuação.
- Copia o resultado limpo.
É mesmo tudo. Sem opções para configurar, sem formatos para selecionar. Colar, clicar, copiar — feito.
Quando é que realmente precisas disto
Se és cientista de dados ou engenheiro NLP e estás a pré-processar texto antes de o introduzir num modelo, a pontuação é geralmente ruído de que precisas de te livrar. Quer estejas a construir um classificador de sentimentos, um modelo de tópicos, ou simplesmente a fazer uma contagem de frequência de tokens, ter vírgulas e pontos parasitas no teu corpus distorce os teus resultados de uma forma que é chata de depurar depois.
Se és programador e estás a limpar conteúdo gerado por utilizadores antes de o armazenar ou comparar numa base de dados, as inconsistências de pontuação causam falhas silenciosas nas correspondências. Dois utilizadores que escrevem "Lisboa" e "Lisboa." não deviam ser tratados como entradas diferentes — mas serão se não removeres a pontuação primeiro.
Se és investigador ou académico a fazer análise de texto manual — contar ocorrências de palavras, construir tabelas de frequência, comparar passagens — passar o teu texto por um processo para remover a pontuação poupa-te muito trabalho de limpeza manual tedioso no Excel ou Google Sheets.
E se és estratega de conteúdo a extrair palavras-chave de um lote de artigos ou conteúdo web extraído por scraping, a pontuação presa às bordas das palavras vai estragar cada contagem e comparação que tentares fazer. Limpa primeiro, analisa depois.