Wenn du mit großen pdf Dateien arbeitest, kennst du vielleicht die Situation, dass dich eigentlich nur einige wenige Seiten der Datei interessieren. Auch wenn du mit dem Adobe Acrobat Reader auf den meisten Systemen relativ komfortabel pdf-Dateien betrachten kannst, fehlt in der kostenlosen Version eine Möglichkeit einzelne Seiten zu extrahieren.
Eine relative simple Möglichkeit hierfür ist die “Drucken”-Funktion deines Betriebssystems, mit der du die Möglichkeit hast, einzelne Seiten oder Abschnitte in eine neue pdf-Datei zu drucken. Diese Möglichkeit funktioniert jedoch nicht zwingend zuverlässig, so kann die Möglichkeit zur Volltextsuche in gedruckten pdf-Dateien verloren gehen.
Eine andere Möglichkeit ist das kostenlose Tool pdf-split-and-merge-basic (pdfSAM basic), dass in seiner kostenlosen Version diverse Funktionalitäten zum Teilen und Zusammenfügen von pdf-Dateien bietet. Allerdings kann es gerade bei großen pdf-Dateien mit mehreren Megabyte zu Problemen kommen.
Eine einfache und auf allen Systemen verlässlich funktionierende Alternative ist das Aufteilen einer pdf-Datei mit Hilfe von TEX LIVE und dem zugehörigem Paket pdfpages. Die zugehörige tex-Datei sieht folgendermaßen aus:
\documentclass[a4paper]{article}
\usepackage{pdfpages}
\begin{document}
\includepdf[pages={2155-2328}]{meine_pdf_datei.pdf}
\end{document}
Die Datei kann anschließend mittels
pdflatex output.tex
in eine neue pdf-Datei kompiliert werden. Diese beinhaltet dann nur die Seiten 2155-2328 der Ursprungsdatei.
Eine ebenso einfache wie vielseitige Möglichkeit ist die Verwendung von Python und der Bibliothek pypdf2. pypdf2 installierst du im Terminal mittels
pip3 install pypdf2
Der Code deiner Python-Datei sieht dann folgendermaßen aus.
from PyPDF2 import PdfFileReader, PdfFileWriter
startPage=2155
endPage=2328
pdfReader=PdfFileReader('meine_pdf_datei.pdf')
pdfWriter=PdfFileWriter()
for page in range (startPage-1, endPage):
pdfWriter.addPage(pdfReader.getPage(page))
pdfWriter.write('output.pdf')