Cómo contar el número de palabras en un archivo pdf desde Linux cli

Usando pdftotext:#

  1. Instalación:

    • Si no está instalado, necesitarás instalar el paquete poppler-utils que incluye pdftotext.
    sudo apt install poppler-utils

    o

    yum install poppler-utils

    dependiendo de su distribución.

  2. Uso:

    • Una vez instalado, puedes convertir un PDF a texto y luego contar las palabras de la siguiente manera:
    pdftotext input.pdf - | wc -w

    Aquí, input.pdf es su archivo PDF de origen y wc -w cuenta el número de palabras. El - en pdftotext especifica que la salida debe enviarse a la salida estándar, que luego se canaliza a wc.