Dokumente vor 2026 wurden nicht automatisch geparst. Hier können sie gezielt nachgeholt werden. Kein LLM — nur PDF-Text-Extraktion.
| Jahr | BE gesamt | Kein PDF | Skip | Ausstehend | Verarbeitung | Fertig | Fehler | Aktion |
|---|---|---|---|---|---|---|---|---|
| 2021 | 4 | — | — | — | — | 4 | — | |
| 2022 | 166 | — | — | — | — | 166 | — | |
| 2023 | 138 | — | — | — | — | 138 | — | |
| 2024 | 239 | — | — | — | — | 239 | — | |
| 2025 | 214 | — | — | — | — | 214 | — | |
| 2026 (laufend) | 211 | — | — | — | — | 211 | — | — |
Große Dokumente (oft 200+ Seiten). Nur nach Bedarf anstoßen — ein Jahr dauert im Parser deutlich länger als BE-Dokumente.
| Jahr | PlPr gesamt | Kein PDF | Skip | Ausstehend | Verarbeitung | Fertig | Fehler | Aktion |
|---|---|---|---|---|---|---|---|---|
| 2021 | 83 | — | 83 | — | — | — | — | |
| 2022 | 1235 | 138 | 1235 | — | — | — | — | |
| 2023 | 1113 | — | 1113 | — | — | — | — | |
| 2024 | 1370 | 220 | 1369 | — | — | 1 | — | |
| 2025 | 1446 | — | 1446 | — | — | — | — | |
| 2026 (laufend) | 1100 | 92 | 87 | 5 | — | 1008 | — | — |
/PlenarPr/…bs….pdf)
Kleine Einzeldokumente im PlPr-Verzeichnis — z.B. p19-085bs3107.pdf.
Enthalten den eigentlichen Beschlusstext direkt ohne das vollständige Sitzungsprotokoll.
| Jahr | Gesamt | Kein PDF | Skip | Ausstehend | Verarbeitung | Fertig | Fehler | Aktion |
|---|---|---|---|---|---|---|---|---|
| 2021 | 6 | — | — | — | — | 6 | — | |
| 2022 | 7 | — | — | — | — | 7 | — | |
| 2023 | 14 | — | — | — | — | 14 | — | |
| 2024 | 5 | — | — | — | — | 5 | — | |
| 2025 | 9 | — | — | — | — | 9 | — | |
| 2026 (laufend) | 3 | — | — | — | — | 3 | — | — |
Dokumente mit bekanntem Seiten-Bereich (sb_page_start / sb_page_end)
sind Abschnitte in einem größeren Plenarprotokoll-PDF. Der Parser speichert jetzt nur den
relevanten Ausschnitt in dokument_seite. Bereits geparste Dokumente müssen
dafür einmal neu verarbeitet werden.
Nur Dokumente mit PDF-Link (lokurl) werden geparst. Dokumente ohne
lokurl bleiben unberücksichtigt. Der Parser läuft automatisch weiter —
Fortschritt ist auf der Übersichtsseite sichtbar.
Alle sa_ticker-Einträge mit extrahierten Orten (geo_zusaetzlich)
erneut durch Nominatim laufen lassen. Sinnvoll wenn Dokumente vor der Geocodierung analysiert
wurden oder Nominatim damals kein Ergebnis lieferte.
Leitet die Partei/Fraktion aus urheber ab
(z. B. „Nachname, Vorname (SPD)“ → SPD) und schreibt sie ins
dokument.partei-Feld. Der Importer setzt das Feld fortan
automatisch; dieser Lauf füllt den Bestand nach. Idempotent —
filterbar über /api/pardok/v1/dokument?partei=….
Abgedeckt: 48117 von 41398 Dokumenten mit Urheber. · []: 29808 · ['CDU']: 4189 · ['Grüne']: 4053 · ['AfD']: 3716 · ['Die Linke']: 3556 · ['SPD']: 1637 · ['FDP']: 807 · ['fraktionslos']: 351