Para este y otros propósitos que iremos incorporando en el Blog, resulta de gran utilidad la libreria PDFTK (o PDF Toolkit). Es una utilidad que a través de la línea de comandos puede realizar numerosas manipulaciones de los archivos PDF, entre los que podemos citar:
- Fusionar documentos PDF
- Extraer fragmentos de documentos PDF
- Encriptar documentos
- Desencriptar documentos
- Aplicar marcas de agua a documentos
- Incorporar archivos anexos a documentos PDF
- Extraer archivos anexos a documentos
- Comprimir o descomprimir archivos PDF
- Reparar PDF corrupto
En esta entrada nos centraremos en la extracción de fragmentos de un archivo PDF con la utilidad PDFTK. Partimos de la situación en que ya se encuentra correctamente instalada la utilidad. Se abre una ventana de línea de comandos y una vez ubicados en el directorio donde se encuentra el archivo ejecutable, y suponiendo que el archivo del que queremos extraer un fragmento se llama ARCHIVO.PDF, la sintaxis para la extracción de un fragmento es:
pdftk apodo=nombrearchivo.pdf cat [apodo][pagina inicial]-[pagina final] output nombrenuevo.pdf
donde [pagina inicial] comienza con la página 1 hasta la última página del documento, y [pagina final] puede ser cualquier número del documento o la palabra reservada «end» para indicar la última página del documento PDF.
A modo de ejemplo y suponiendo que deseamos extraer el capítulo 1 que se compone desde la página 1 a la 20 del documento llamado libro.pdf, a un nuevo documento pdf llamado cap1libro.pdf, deberíamos escribir en la línea de comandos:
pdftk A=libro.pdf cat A1-20 output cap1libro.pdf