Datum30.12.2025 15:54
Quellewww.spiegel.de
TLDRDie SPIEGEL-Redaktion machte das Gutachten des Verfassungsschutzes zur AfD interaktiv durchsuchbar, nachdem sie auf technische Hürden mit einem schlechten Scan gestoßen war. Mithilfe von Texterkennungssoftware und manueller Prüfung durch 24 Mitarbeiter extrahierten sie mehr als 1100 Zitate aus dem Dokument, die rechtsextreme und demokratiefeindliche Inhalte aufzeigen. Nach neun Tagen intensiver Arbeit wurde die interaktive Anwendung erstellt, die Bürgern und Wissenschaftler Zugang zu den Daten bietet, um die Verfassungsfeindlichkeit der AfD zu verdeutlichen.
InhaltIn einem interaktiven Tool machten wir das AfD-Gutachten des Verfassungsschutzes durchsuchbar. Auf dem Weg dorthin stießen wir auf technische Hürden, die sich nur mit beispielloser Handarbeit überwinden ließen. In persönlichen Jahresrückblicken berichten SPIEGEL-Redakteurinnen und -Redakteure, welche Texte sie 2025 besonders beschäftigt haben. Wenn Sie einem Datenjournalisten mal den Tag verderben wollen, geben Sie ihm ein schlecht eingescanntes PDF. Texte und Daten lassen sich daraus nicht sauber herauskopieren und weiterverwenden. Ein Kollege sagte mal: "PDFs sind der Ort, an den Daten zum Sterben gehen." Im Mai bekamen wir einen Scan des AfD-Gutachtens in die Hände – jenes Papiers, in dem das Bundesamt für Verfassungsschutz (BfV) Belege für die Verfassungsfeindlichkeit der Partei zusammengetragen hat. 1108 Seiten, im Original offenbar links gebunden, sodass das Papier beim Scannen nicht richtig aufliegen konnte. Das Resultat: schiefe Zeilen, dunkle Schatten, datenjournalistische Verzweiflung. Trotzdem war klar, dass wir mit diesem PDF arbeiten mussten. Zu groß waren die Relevanz und das Interesse der Öffentlichkeit, sich selbst ein Bild vom Inhalt zu machen. Die Verfassungsschützer hatten zusammengetragen, wie tief extreme Denkmuster in der AfD verwurzelt sind. Dafür hatten sie mehr als 1100 Zitate aus Reden, Posts und Publikationen von Parteifunktionären gesammelt. Wir entschieden, eine interaktive Anwendung zu programmieren, in der unsere Leserinnen und Leser die Zitate selbst durchsuchen können – nach Begriffen, Personen, Landesverbänden. Doch dafür mussten wir den Inhalt zunächst aus dieser unsäglichen PDF-Datei befreien. Wir nennen das: "maschinenlesbar" machen. Nur mit maschinenlesbaren Daten lässt sich eine interaktive, durchsuchbare Anwendung bauen. Glücklicherweise gibt es Texterkennungssoftware: Man gibt ein gescanntes Dokument hinein und bekommt den Text zurück. In der Theorie ist das zumindest so. In der Praxis stößt man immer wieder auf Probleme: Folgen die Buchstaben "rn" aufeinander, erkennt die Software gelegentlich "m". Waren beim Scannen Flecken oder Krümel auf dem Blatt, können daraus plötzlich Satzzeichen werden. Und ist der gescannte Text zu verzogen, kommt manchmal nur noch Kauderwelsch raus. Wir konnten natürlich nur Zitate veröffentlichen, bei denen wir sicher waren, sie korrekt wiederzugeben. Doch irgendwann waren die technischen Möglichkeiten erschöpft und wir fanden in Stichproben noch immer Fehler in mehreren Zitaten. Uns wurde klar: Wir müssen die Sache händisch angehen. Zwei Dutzend Kolleginnen und Kollegen erklärten sich sofort bereit mitzuhelfen. Man muss das noch einmal wiederholen, weil es in einer für Medienhäuser wirtschaftlich herausfordernden Zeit wirklich nicht selbstverständlich ist, dass für ein Projekt derart viele Mitarbeiter ihre Arbeit beiseitelegen: Vierundzwanzig Kolleginnen und Kollegen lasen und prüften über viele Stunden rechtsextreme Zitate. Wir arbeiteten in einem riesigen, miteinander geteilten Tabellendokument. Eine Zeile für jedes Zitat. In den einzelnen Spalten erfassten wir die Originalformulierung, den Urheber des Zitats, Datum, Quelle und die Seite im Gutachten, auf der sich das Zitat findet. Nach acht Stunden hatten wir das Ende der Liste erreicht – und waren erschöpft. Am nächsten Tag gingen wir noch einmal alle Zitate durch. Sicher ist sicher. Nicht nur die schiere Menge der Zitate war herausfordernd. Auch ihr Inhalt war verstörend: menschenverachtende Sprüche von AfD-Granden, gewaltverherrlichender Ton und eine demokratiefeindliche Weltsicht. In einem gemeinsamen Chat besprachen wir Grenzfälle, in denen Details uneindeutig waren, und motivierten uns gegenseitig, trotz der Zumutungen dieses Materials weiterzumachen. Parallel zur Datenarbeit gestalteten wir den Look der interaktiven Anwendung. Und ebenso zur selben Zeit programmierten wir das technische Fundament des Artikels. Nach insgesamt neun Tagen waren wir fertig. Die extrahierten und geprüften Zitate sind heute nicht nur Grundlage der interaktiven Anwendung und des Artikels. Wir stellen sie auch als Open Data zum Download bereit, damit Wissenschaft und Zivilgesellschaft sie weiterverwenden können (Google Spreadsheet , Excel-Download , CSV-Download ). So verhinderten wir diesmal, dass Daten den PDF-Tod sterben.