Backfill – Pardok Pipeline

Dokumente vor 2026 wurden nicht automatisch geparst. Hier können sie gezielt nachgeholt werden. Kein LLM — nur PDF-Text-Extraktion.

Beschlussempfehlungen (BE)

Jahr	BE gesamt	Kein PDF	Skip	Ausstehend	Verarbeitung	Fertig	Fehler	Aktion
2021	4	—	—	—	—	4	—
2022	166	—	—	—	—	166	—
2023	138	—	—	—	—	138	—
2024	239	—	—	—	—	239	—
2025	214	—	—	—	—	214	—
2026 (laufend)	211	—	—	—	—	211	—	—

Plenarprotokolle (PlPr)

Große Dokumente (oft 200+ Seiten). Nur nach Bedarf anstoßen — ein Jahr dauert im Parser deutlich länger als BE-Dokumente.

Jahr	PlPr gesamt	Kein PDF	Skip	Ausstehend	Verarbeitung	Fertig	Fehler	Aktion
2021	83	—	83	—	—	—	—
2022	1235	138	1235	—	—	—	—
2023	1113	—	1113	—	—	—	—
2024	1370	220	1369	—	—	1	—
2025	1446	—	1446	—	—	—	—
2026 (laufend)	1100	92	87	5	—	1008	—	—

Beschluss-PDFs (/PlenarPr/…bs….pdf)

Kleine Einzeldokumente im PlPr-Verzeichnis — z.B. p19-085bs3107.pdf. Enthalten den eigentlichen Beschlusstext direkt ohne das vollständige Sitzungsprotokoll.

Jahr	Gesamt	Kein PDF	Skip	Ausstehend	Verarbeitung	Fertig	Fehler	Aktion
2021	6	—	—	—	—	6	—
2022	7	—	—	—	—	7	—
2023	14	—	—	—	—	14	—
2024	5	—	—	—	—	5	—
2025	9	—	—	—	—	9	—
2026 (laufend)	3	—	—	—	—	3	—	—

Sb-Dokumente neu schneiden

Dokumente mit bekanntem Seiten-Bereich (sb_page_start / sb_page_end) sind Abschnitte in einem größeren Plenarprotokoll-PDF. Der Parser speichert jetzt nur den relevanten Ausschnitt in dokument_seite. Bereits geparste Dokumente müssen dafür einmal neu verarbeitet werden.

Gesamt mit Seitenbereich: 9746 Fertig: 1428 Ausstehend: 0 Fehler: 1

Nur Dokumente mit PDF-Link (lokurl) werden geparst. Dokumente ohne lokurl bleiben unberücksichtigt. Der Parser läuft automatisch weiter — Fortschritt ist auf der Übersichtsseite sichtbar.

LLM-Orte nachgeocoden

Alle sa_ticker-Einträge mit extrahierten Orten (geo_zusaetzlich) erneut durch Nominatim laufen lassen. Sinnvoll wenn Dokumente vor der Geocodierung analysiert wurden oder Nominatim damals kein Ergebnis lieferte.

Partei-Feld füllen

Leitet die Partei/Fraktion aus urheber ab (z. B. „Nachname, Vorname (SPD)“ → SPD) und schreibt sie ins dokument.partei-Feld. Der Importer setzt das Feld fortan automatisch; dieser Lauf füllt den Bestand nach. Idempotent — filterbar über /api/pardok/v1/dokument?partei=….

Abgedeckt: 48117 von 41398 Dokumenten mit Urheber. · []: 29808 · ['CDU']: 4189 · ['Grüne']: 4053 · ['AfD']: 3716 · ['Die Linke']: 3556 · ['SPD']: 1637 · ['FDP']: 807 · ['fraktionslos']: 351

Dokumente nachparsen

Beschlussempfehlungen (BE)

Plenarprotokolle (PlPr)

Beschluss-PDFs (`/PlenarPr/…bs….pdf`)

Sb-Dokumente neu schneiden

LLM-Orte nachgeocoden

Partei-Feld füllen

Dokumente nachparsen

Beschlussempfehlungen (BE)

Plenarprotokolle (PlPr)

Beschluss-PDFs (/PlenarPr/…bs….pdf)

Sb-Dokumente neu schneiden

LLM-Orte nachgeocoden

Partei-Feld füllen

Beschluss-PDFs (`/PlenarPr/…bs….pdf`)