Skip to main content

Wer redet über was im Bundestag? Die 19. Legislaturperiode durch die Brille semantischer Netzwerke

Mithilfe von semantischen Netzwerken und Natural Language Processing haben wir uns den 24.666 während der 19. Legislaturperiode im Bundestag gehaltenen Reden genähert.

Published onJan 20, 2023
Wer redet über was im Bundestag? Die 19. Legislaturperiode durch die Brille semantischer Netzwerke
·

KIT – Karlsruher Institut für Technologie, Institut für Technikzukünfte - Department für Soziologie

Politische Debatten und Polarisierung im Bundestag

Dr. Sven Banisch

Politische Debatten und Polarisierung im Bundestag: Seminarbericht

Joris Wessels

[email protected], Bachelor Wirtschaftsingenieurwesen, Matrikelnummer: 2305488

Donnerstag, 14. April 2022

Abstract

Im Rahmen eines Forschungsseminars am Karlsruher Institut für Technologie (KIT) haben wir uns mittels Methoden der automatisierten Textverarbeitung sowie der Netzwerkanalyse den politischen Themen und Debatten im Bundestag angenähert. Dabei haben wir alle 24.666 gehaltenen Reden der 19. Legislaturperiode (2017-2021) analysiert und unsere Ergebnisse in einer Infografik aufbereitet. Die Ergebnisse wurden in einem ergebnisoffenen Format mittels explorativer Datenanalyse erarbeitet. Dadurch war es möglich, unvoreingenommen an den Datensatz heranzutreten und erst im Laufe des Seminars Hypothesen zu entwickeln, welche dann auf Plausibilität überprüft werden konnten. Durch eine Häufigkeitsanalyse erhielten wir ein Grundverständnis für den Datensatz. Es gibt verschiedene Möglichkeiten sich mit Netzwerken der Struktur der Debatten zu nähern, und wir haben uns dazu entschieden, ein Netzwerk auf der Infografik abzubilden, das alle Bundestagsabgeordneten in eine semantische Beziehung zueinander setzt. Durch dieses Netzwerk werden die Bundestagsabgeordneten einerseits dem Thema zugeordnet, welchem sie inhaltlich am nächsten stehen, als auch Beziehungen zwischen einzelnen Themen deutlich. Es ist zum Beispiel weniger überraschend, dass das Thema „Finanzen“ sehr zentral liegt, und das Thema „Militär/Bundeswehr“ weniger mit anderen Themen gemeinsam hat. Ungewöhnlich erschien uns allerdings die Abgeschlagenheit des Themas „Gesundheit“, da wir davon ausgegangen waren es im Zusammenhang mit der Coronapandemie zentraler zu finden. Außerdem werden in sogenannten Word-Clouds die Worte abgebildet, die nur von einer einzigen Partei gesagt worden sind. Dadurch werden die individuellen Aspekte einzelner Parteien einfacher zugänglich und hervorgehoben. Die Infografik ist unter diesem Link einsehbar.

Inhaltsverzeichnis

1 Einleitung 1

2 Erster Einblick in die Datenstruktur 1

2.1. Ursprüngliche Datenstruktur 2

2.2. Pre-Processing der Daten 2

2.2.1. Fehlerhafte Werte 2

2.2.2. Hinzufügen weiterer Attribute 3

2.3. Verteilung der Häufigkeiten 4

3 Visualisierungen als Netzwerk 6

3.1. Netzwerk mit gleichen Tagesordnungspunkten als Gewicht der Kanten 6

3.2. Netzwerk mit Reden als Knoten 9

3.3. Netzwerk mit Parlamentariern als Knoten 12

4 Fazit 14

5 Anhang 16

Abbildungsverzeichnis

Abbildung 1 Verteilung der Redelängen …...................................................... 4

Abbildung 2 Anzahl gehaltener Reden pro Partei........................................... 4

Abbildung 3 Histogramm zu der Anzahl an gehaltenen Reden.......................5

Abbildung 4 Histogramm zu der Verteilung der gehaltenen Reden auf Parteiebene ..........…………………………………………………………………………...... 5

Abbildung 5 Visualisierung der Matrix aus Tabelle 4..................................... 7

Abbildung 6 Verteilung der Kantengewichte des TOP-Netzwerkes........................……………………………………………………................. 8

Abbildung 7 Visualisierung des TOP-Netzwerkes.......................................... 9

Abbildung 8 Netzwerk mit Reden als Knoten................................................ 12

Tabellenverzeichnis

Tabelle 1 Datenstruktur der Ausgangsdaten................................................... 2

Tabelle 2 Datenstruktur der pre-processed Daten.......................................... 3

Tabelle 3 Beispielhafte Liste von gehaltenen Reden....................................... 6

Tabelle 4 Matrix für die Darstellung eines Netzwerkes................................. 6

Einleitung

Das Ziel des Seminars „Politische Debatten und Polarisierung im Deutschen Bundestag“ im Wintersemester 2021-22, war eine Analyse der 19. Legislaturperiode des deutschen Bundestages mithilfe von visuellen Netzwerken und Häufigkeitsanalysen. Als Ausgangsdatensatz diente eine im Projekt ODYCCEUS (Opinion Dynamics and Cultural Conflict in European Spaces, www.odycceus.eu) erarbeitete JSON-Datei, welche alle gehaltenen Reden in der 19. Legislaturperiode (2017-2021) in Textform enthält. Dr. Sven Banisch, der Leiter dieses Seminars ist Teil des Projekts ODYCCEUS. In einem offenen Format wurde sich dem Datensatz über verschiedene Wege genähert. Durch die explorative Datenanalyse wurden nicht im vornherein Hypothesen aufgestellt und im Anschluss überprüft, sondern eher wurden aus dem Datensatz Hypothesen entnommen und im Anschluss auf Plausibilität überprüft. Zielvorgabe war das Erstellen einer Infografik. Der Inhalt dieser Infografik wurde im Laufe des Seminars mittels forschenden Lernens erarbeitet. Durch eine grafische Darstellung der Ergebnisse wurde sich eine bessere Zugänglichkeit und Intuitivität des Datensatzes für Außenstehende erhofft. Wichtig erschien auch das Anregen von Gedanken bezüglich möglicher weitergehender Forschung.

In diesem Bericht wird nicht der tatsächlichen Quellcode erklärt, mit welchem die Ergebnisse und Visualisierungen erzielt wurden, sondern vielmehr probiert eine Basis zu bilden, von welcher aus die Vorgehensweise innerhalb der Programme nachvollziehbar ist. Der genaue Quellcode ist dem Anhang zu entnehmen. Der Anhang enthält vier Jupyter-Notebooks - Zuerst das Notebook Redenanteile_Parlamentarier.ipynb, das die Auswertungen aus Kapitel 3.3 liefert. Danach folgen die Notebooks coTOP_netzwerke.ipynb, reden_network.ipynb und seman_network.ipynb, die die Netzwerke aus Kapitel 4.1, Kapitel 4.2 und Kapitel 4.3 erzeugen.

Erster Einblick in die Datenstruktur

Zu Beginn des Seminars war ein erster Einblick in die Struktur der gehaltenen Reden von Nöten. Eine einfache quantitative Analyse der vorhandenen Daten ermöglichte Antworten zu den Fragestellungen dieses Kapitels: Welche Partei hat wie viel Redeanteile? Wer hat am meisten Reden gehalten? und weitere Fragen.

Ursprüngliche Datenstruktur

Die Daten, die zu Beginn des Seminars vorliegen werden in Python als eine Liste dargestellt. Jedes Element dieser Liste stellt eine gehaltene Rede im Bundestag dar. Eine gehaltene Rede wird in Python durch ein Dictionary dargestellt, welches wiederum folgende Attribute besitzt:

Tabelle 1 Datenstruktur der Ausgangsdaten

Rede

dictionary

Darstellung aller Informationen, die eine Rede charakterisieren

Variable

Datentyp

Beschreibung

date

String

Das Datum an dem die Rede gehalten wurde

dicussion_title

list

Name des Tagesordnungspunktes, unter dem die Rede gehalten wurde

id

String

Jede Rede erhält einen eindeutigen Index

name

String

Name des Redners/der Rednerin

party

String

Parteizugehörigkeit des Redners/der Rednerin

period

Integer

Legislaturperiode in der die Rede gehalten wurde

text

String

Die Rede als ein einziger String

Die Datenstruktur wird in Tabelle 1 genauer skizziert. Durch die Darstellung als Liste werden die Daten iterierbar und leichter zugänglich. Für spezifische Analysen wird der Datensatz zwar umstrukturiert, die zugrundeliegenden Daten verändern sich allerdings nicht.

Pre-Processing der Daten

Die in Kapitel 2.1 erklärten Daten wurden mittels eines Pre-Processings um fehlerhafte Werte bereinigt, sowie um weitere Attribute ergänzt. Da diese Arbeit von Sven Banisch übernommen wurde, wird in diesem Kapitel nur kurz auf die Ergebnisse eingegangen.

Fehlerhafte Werte

Der Rohdatensatz enthält einige fehlerhafte Werte. Ein Beispiel ist die Schreibweise der Parteinamen. Die Partei Bündnis90/Die Grünen werden einmal in Caps-Lock geschrieben und einmal in normaler Groß- und Kleinschreibung. Damit diese Reden trotzdem alle den Grünen zugeordnet werden können, wurden die betroffenen Reden identifiziert und der Parteiname vereinheitlicht. Ein anderes Beispiel für fehlerhafte Werte ist eine uneinheitliche Schreibweise den Namen der Parlamentarier. In einigen Fällen ist es vorgekommen, dass Parlamentarier in einer Rede mit zweitem Vornamen genannt worden sind, in der nächsten jedoch ohne diesen.

Damit wir in späteren Analysen keinen Informationsverlust haben durch Doppelungen von Namen, wurde auch hier die Schreibweise der Namen in den betroffenen Reden vereinheitlicht.

Hinzufügen weiterer Attribute

Der Datensatz wurde zudem von Dr. Sven Banisch um zwei Attribute ergänzt. Das erste Attribut ist eine Liste der in der jeweiligen Rede gesagten Worte. Die Worte wurden allerdings in ihre Stammform übertragen. Aus „ging“ wird so „gehen“. Dieser Vorgang wird als Lemmatisierung bezeichnet und sorgt nicht nur für eine Reduktion in der Anzahl an unterschiedlichen Wörtern, sie sorgt auch dafür, dass der Informationsverlust bei späteren Analysen minimiert wird. Durch die Lemmatisierung werden also zwei Worte, die den gleichen

Wortstamm haben, als gleich angesehen. Die Lemmatisierung erfolgte mittels der PythonBibliothek Spacy (https://spacy.io). Aufgrund der großen Menge an Wörtern, nimmt die Ausführung der Lemmatisierung einige Zeit in Anspruch. Damit dieser Schritt nicht vor einzelnen Analysen ausgeführt werden muss, wurden die Rohdaten um die Lemmatisierte Form erweitert. Als weiteres Attribut wurde die Wortform jedes Wortes einer Rede als Liste jeder Rede hinzugefügt. Die Wortform wird bei der Lemmatisierung mit Spacy automatisch mitbestimmt und lässt zu späteren Zeitpunkten eine Spezialisierung auf einzelne Wortformen, wie zum Beispiel Nomen zu. Die neue Datenstruktur lässt sich in Tabelle 2 genauer nachvollziehen

Tabelle 2 Datenstruktur der pre-processed Daten

Rede

dictionary

Darstellung aller Informationen, die eine Rede charakterisieren

Variable

Datentyp

Beschreibung

date

String

Das Datum an dem die Rede gehalten wurde

dicussion_title

String

Name des Tagesordnungspunktes, unter dem die Rede gehalten wurde

id

String

Jede Rede erhält einen eindeutigen Index

name

String

Name des Redners/der Rednerin

party

String

Parteizugehörigkeit des Redners/der Rednerin

period

Integer

Legislaturperiode in der die Rede gehalten wurde

text

String

Die Rede als ein einziger String

text_lem

list

Liste aller Worte in ihrer lemmatisierten Form

text_pos

list

Liste der Wortformen der Worte

Verteilung der Häufigkeiten

Insgesamt wurden in dem 19. Bundestag 24666 Reden gehalten, wobei die Länge der gehaltenen Reden variiert. Die Länge befindet sich in einem Großteil der Fälle allerdings unter 2000 Worten (Abbildung 1). Mittels des Histogramms in Abbildung 3 lässt sich erkennen, wie oft Personen eine bestimmte Anzahl an Reden gehalten haben. Die Personen, welche die meisten Reden gehalten haben, sind Angela Merkel (368 Reden), Heiko Maas (235 Reden), Jens Spahn (195 Reden) und Olaf Scholz (181 Reden) (Abbildung 3). Diese Ergebnisse sind zu erwarten, da Angela Merkel als damalige Bundeskanzlerin zu vielen Themen Stellung bezogen hat. Dabei fallen viele ihrer Reden mit unter 500 Worten eher kurz aus. Unter den Top 10 Redenden in der 19ten Legislaturperiode sind insgesamt 9 Teil des damaligen Bundeskabinetts. Auffällig ist hier besonders Volker Ullrich, welcher mit 157 gehaltenen Reden als einziger unter den Top 10 nicht Teil des Bundeskabinetts war.

Abbildung 2 Anzahl gehaltener Reden pro Partei

Die Anzahl der gehaltenen Reden folgt ungefähr den Sitzanteilen im Bundestag. Die CDU/CSU hat mit 7500 Reden den Löwenanteil der Reden gehalten. Im Anschluss folgt die SPD mit 5247 Reden und an dritter Stelle mit 3356 Reden die AfD (Abbildung 2).

In Abbildung 4 sind die Histogramme der gehaltenen Reden auf Parteiebene abgebildet. Während sich die Verteilungen grundsätzlich ähneln, stechen die damaligen Regierungsparteien CDU/CSU und SPD heraus, da sie als einzige Redner haben, welche mehr als 100 Reden gehalten haben. Aufgrund der niedrigen Anzahl an gehaltenen Reden wurden die Fraktionslosen in Abbildung 4 ausgeblendet.

Abbildung 3 Histogramm zu der Anzahl an gehaltenen Reden

Abbildung 4 Histogramm zu der Verteilung der gehaltenen Reden auf Parteiebene

Visualisierungen als Netzwerk

Das folgende Kapitel beschäftigt sich mit den verschiedenen Netzwerken, die im Laufe des Seminars realisiert worden sind. Dabei wird eher auf die zugrundeliegenden Konzepte und Ideen eingegangen als auf die tatsächliche Umsetzung mittels Jupyter-Notebooks. Für genauen Programmcode sei auf den Anhang verwiesen.

Netzwerk mit gleichen Tagesordnungspunkten als Gewicht der Kanten

Um die Parlamentarier in aussagekräftige Gruppen zu einzuteilen, wurde ein Netzwerk erstellt, welches die Parlamentarier mit gleichen Tagesordnungspunkten durch Kanten verbindet. Das Netzwerk wurde in Python als Graph implementiert und mittels der Netzwerkvisualisierungssoftware Gephi visualisiert. Die Knoten des Netzwerks sind die Parlamentarier, welche eine Rede in der 19ten Legislaturperiode gehalten haben. Zwei Parlamentarier werden miteinander verbunden, wenn beide unter dem gleichen Tagesordnungspunkt (kurz: TOP) eine Rede gehalten haben. Dabei steigt das Gewicht, wenn die Parlamentarier unter verschiedenen TOPs jeweils beide mindestens eine Rede gehalten haben. Die Anzahl der gehaltenen Reden unter dem gleichen Tagesordnungspunkt steigert dabei nicht das Gewicht. Ein Beispiel:

Tabelle 3 Beispielhafte Liste von gehaltenen Reden

Rede

Name

TOP

rede1

Olaf Scholz

top1

rede2

Olaf Scholz

top1

rede3

Olaf Scholz

top2

rede4

Angela Merkel

top1

rede5

Angela Merkel

top3

rede6

Jens Spahn

top1

rede7

Jens Spahn

top2

Dann lässt sich aus Tabelle 3 mit Tabelle 4 ein Graph beschreiben.

Tabelle 4 Matrix für die Darstellung eines Netzwerkes

Olaf Scholz

Angela Merkel

Jens Spahn

Olaf Scholz

0

1

2

Angela Merkel

1

0

1

Jens Spahn

2

1

0

Abbildung 5 Visualisierung der Matrix aus Tabelle 4

Da es sich um einen ungerichteten Graphen handelt, ist die Matrix symmetrisch. Der Wert des (i,j)-ten Eintrags spiegelt dabei das Gewicht der Kante zwischen dem i-ten und dem j-ten Knoten wieder. Bei einem Gewicht von 0 existiert keine Verbindung zwischen den beiden Knoten.

Nach der Visualisierung mittels eines Force-Layouts zeigt sich, dass das Netzwerk nicht die erhoffte Klassierung von Parlamentariern ermöglicht. Dies liegt einerseits an den teilweise sehr umfassenden Tagesordnungspunkten, welche mit bis zu 100 gehaltenen Reden für viele Kanten sorgen. Als Veranschaulichung: Wenn vier Parlamentarier unter demselben Tagesordnungspunkt eine Rede halten, wird eine Verbindungskante zwischen jedem Knoten erstellt, also in diesem Fall 6 Kanten. Allgemein sind es

n*(n+1)*0,5 - n

Kanten, wobei n die Anzahl der Parlamentarier ist. Dadurch entsteht ein sehr unübersichtliches Netzwerk. Gleichzeitig gibt es nur wenige Kanten, welche ein hohes Gewicht haben. Eine Verteilung der Kantengewichte ist in Abbildung 5 zu sehen. Der Großteil der Kanten hat nur ein Gewicht von 1.

Abbildung 6 Verteilung der Kantengewichte des TOP-Netzwerkes

Das Ergebnis der Kombination von vielen Kanten mit geringem Gewicht ist ein Netzwerk, durch welches keine klare Struktur deutlich wird. Aus Gründen der Vollständigkeit findet sich das visualisierte Netzwerk mit Tagesordnungspunkten als Gewichte in Abbildung 7. Die Unstrukturiertheit lässt sich so erklären, dass trotz des Vorhandenseins von Experten und Expertinnen für jede Partei, diese anscheinend nicht nur mit anderen Experten und Expertinnen desselben Themas reden, sondern auch mit Parlamentariern, die andere Themengebiete einnehmen.

Abbildung 7 Visualisierung des TOP-Netzwerkes

Netzwerk mit Reden als Knoten

Aus den Rohdaten lässt sich auch ein Netzwerk mit einzelnen Reden als Knoten erstellen. Das Gewicht der Kanten wird dann durch die Ähnlichkeit der Reden berechnet. Auf die Erstellung und die anschließende Visualisierung des Netzwerkes in Gephi wird in diesem Kapitel genauer eingegangen.

Wie in 2.1 Ursprüngliche Datenstruktur schon beschrieben, liegen die Reden in einer Liste vor. Durch diese Datenstruktur lassen sich bereits die für das Netzwerk benötigten Knoten ablesen.

Die Kantengewichte werden mittels term frequency-inverse document frequency Scores (tf-idf) berechnet. tf-idf Scores sind ein Maß für die Wichtigkeit, welche einem bestimmten Wort in einer bestimmten Rede zukommt. Sie berechnet sich als Produkt aus der Worthäufigkeit in der jeweiligen Rede und der inversen Häufigkeit, wie oft das Wort in Reden vorgekommen ist:

Tf-idf(r, w) = tf(r, w) * idf(w)

r = Rede

w = Wort

tf(r, w) = Häufigkeit von w in r

idf(w) = ln (n / (df(w) + 1))

idf(w) beschreibt die inverse Häufigkeit, wie oft das Wort w von verschiedenen Reden gesagt wurde. Die eins unter dem Bruch verhindert eine Division durch null. Es ist schnell ersichtlich, dass die idf(w) für häufig vorkommende Worte w in Richtung null läuft. Dadurch verliert das Wort w an Gewicht. Selten vorkommende Worte hingegen steigern den idf(w) Score.

Damit ein Wort einen hohen tf-idf Score aufweist, muss es folglich in einer Rede oft vorkommen, in anderen Reden aber wenig.

Die Berechnung der tf-idf Matrix wird mittels der sklearn Bibliothek (https://scikitlearn.org/stable/index.html) realisiert. Dafür wird der Befehl

sklearn.feature_extraction.text.TfidfVectorizer

Aufgerufen. In diesem Methodenaufruf werden zuerst die in allen Reden vorkommenden Worte identifiziert. Danach werden die tf-idf Scores entsprechend der obigen Formel für jede Rede und jedes Wort ausgerechnet. Als Ergebnis steht eine n x m -Matrix, welche als Zeilen die Reden enthält, und als Spalten die Worte. Bei der Berechnung der tf-idf Scores haben wir nur Worte eingehen lassen, welche in weniger als 80% aller Reden eingehen und in mehr als einer Rede vorkommen. Die Obergrenze von 80% hat den Zweck Worte ohne Inhalt, wie „der“, “die“ und “und“ auszusortieren. Diese Worte liefern keine Information, verzerren aber die Analyse, da sie die Abhängigkeiten zwischen semantisch unabhängigen Reden steigern. Die Untergrenze sorgt dafür die Anzahl der Spalten in der Matrix auszusortieren. Da Worte, welche nur in einer Rede vorkommen, nicht in Verbindung mit anderen Reden gesetzt werden können (sie müssten sonst auch dort vorkommen) werden auch diese Worte ignoriert. Dadurch wird die Anzahl der Dimensionen (die Anzahl der Spalten gibt die Dimension des Koordinatensystems wieder) reduziert. Eine Reduktion der Dimension sorgt für eine Verringerung des Fluches der Dimensionen. Der Fluch der Dimensionen sagt aus, dass Distanzmaße für eine Zunahme von Dimensionen an Aussagekraft verlieren.

Aus der tf-idf Matrix lassen sich die Cosinus-Ähnlichkeiten der Reden berechnen. Die CosinusÄhnlichkeit berechnet den Kosinus des Winkels α zwischen zwei Vektoren und lässt sich wie folgt umformen:

cos_similarity (r1, r2) = cos(α) = < r1, r2 > / (||r1|| * || r2||)

r1 = Vektor der td-idf‘s einer Rede

r2 = Vektor der td-idf‘s einer Rede

Im Falle von bereits normierten Vektoren vereinfacht sich die Berechnung auf nur das Skalarprodukt zwischen den beiden Vektoren. Die Vektoren der tf-idf Scores sind von Natur aus normiert. Dadurch lassen sich die Cosinus-Ähnlichkeiten aller Reden zueinander durch die Multiplikation der tf-idf Matrix mit ihrem transponierten Selbst berechnen. Diese entstandene Matrix hat nun dieselbe Struktur wie die Matrix aus Kapitel 3.1. Entlang der Zeilen und Spalten sind die jeweiligen Knoten (welche hier Reden sind!) und die Einträge entsprechen gerade dem Gewicht der Kante zwischen den entsprechenden Knoten. Durch diese Matrix können wir also ein Netzwerk erstellen, welches wir wieder mit Gephi visualisieren. Auf die Visualisierung wird im Folgenden genauer eingegangen.

Die Visualisierung in Gephi wurde wie in Kapitel 3.1 durch ein Force Layout realisiert. Durch ein Filtern der Kanten auf Kanten mit einem Gewicht größer 0,3 lässt sich eine klare Struktur erkennen. Die Reden clustern nach Themen, wie sich durch eine Betrachtung des mostsignificant-word (Das Wort mit dem höchsten tf-idf Score der Rede) schnell überprüfen lässt.

Durch das Anpassen der Knoten- und Kantenfarbe lässt sich ein visuell anschauliches Netzwerk erzeugen. Eine Visualisierung ist in Abbildung 5 zu sehen. Aufgrund der Größe des Netzwerkes mit ca. 16.000 Knoten und 173.000 Kanten, wurde sich gegen dieses Netzwerk für die Darstellung auf der Infografik entschieden.

Abbildung 8 Netzwerk mit Reden als Knoten

Netzwerk mit Parlamentariern als Knoten

Ein weiteres Netzwerk wird in dem folgenden Kapitel vorgestellt. Das Netzwerk hat als Knoten die Parlamentarier, genau wie das Netzwerk mit Tagesordnungspunkten. Die Kantengewichte berechnen sich allerdings ähnlich wie in Kapitel 4.2 als Ähnlichkeit der Reden der Parlamentarier.

Für die Erstellung der Knoten wurde eine Liste aller Parlamentarier, welche eine Rede gehalten haben, erstellt. Jedem Element dieser Liste, also jedem Parlamentarier, wurde eine Liste aller von dieser Person gesagten Worte angehängt. Mittels des bereits aus Kapitel 4.2 bekannten Verfahrens wird wieder eine n x m – Matrix erstellt, welche nun allerdings als Zeilen die verschiedenen Parlamentarier hat. Die Spalten stehen weiterhin für die gesagten Worte und die Elemente enthalten wieder die tf-idf – Scores der Worte für einen bestimmten Parlamentarier. Nach der Multiplikation mit sich selbst erhalten wir die Matrix, welche ein Netzwerk darstellt. Die Visualisierung erfolgte wieder in Gephi. Da es sich bei diesem Netzwerk um das Netzwerk auf der Infografik handelt, wird hier ausführlich auf die Entscheidungsfindung eingegangen, sowie auf die endgültige Visualisierung. Für die Visualisierung auf der Infografik wurde sich für dieses Netzwerk wegen seiner Übersichtlichkeit und Intuitivität entschieden.

Auch in diesem Netzwerk wurde die endgültige Visualisierung durch ein Force-Layout realisiert. Die Farbe der Knoten gibt die jeweilige Nachbarschaft an. Das Netzwerk, das auch auf der Infografik dargestellt ist, ist in Abbildung 9 visualisiert. In diesem Netzwerk ist deutlich zu sehen, dass sich das Cluster, welches thematisch dem Überthema Finanzen (in der Abbildung blaugrau gefärbte Knoten) sehr zentral liegt. Diese Tatsache ist wahrscheinlich dadurch bedingt, dass Finanzen sich in den meisten Fällen auf andere Themen beziehen und deshalb auch Worte aus den anderen Nachbarschaften benutzen. So kann zum Beispiel über die Kosten von Bundeswehreinsätzen diskutiert werden, oder aber auch über die Finanzierung des Bafögs für Studierende. Die Abgeschlagenheit des Gesundheitsclusters (eigenfärbt in beige) fällt schnell in das Auge. Eine Ursache könnte die Menge an spezifischen Fachbegriffen sein, die die Expert*innen im Gesundheitsbereich benutzen. Allerdings wurde eine gewisse Zentralität des Themas erwartet, da durch Corona so häufig wie selten in der Geschichte des Bundestages das Thema Gesundheit in den Fokus der alltäglichen Debatte gelangte. Überraschend erscheint auch die Größe des Clusters zum Thema Militär (eingefärbt in hellblau). Trotz international gesehen geringen Verteidigungsausgaben scheinen die Bundeswehreinsätze und das Militär wichtigstes Thema vieler Parlamentarier*innen zu sein.

In diesem Netzwerk wird ein deutliches Clustering der Parlamentarier erzielt. Nach Inspektion der most-significant-words der Parlamentarier zeigt sich, dass Parlamentarier, welche über die gleichen Themen Reden halten, nahe beieinander liegen. Die Parteizugehörigkeit der Parlamentarier beeinflusst die Nachbarschaft des Knoten hingegen fast gar nicht. Dies mag anfangs überraschen, lässt sich aber dadurch erklären, dass Parteien zu vielen verschiedenen Themen Stellung beziehen, und für diese Stellungnahme meist explizite Experten und Expertinnen zur Hand haben. Diese reden dann stellvertretend für die Partei und ähneln in ihren semantischen Aussagen sehr den Reden der Experten und Expertinnen anderer Parteien.

Auffällig ist die Zentralität von Angela Merkel. Angela Merkel taucht in der Mitte des Graphen auf. Auch dieses Ergebnis ist insofern zu erwarten, dass Angela Merkel als Person mit den meisten Reden und Bundeskanzlerin zu den meisten Themen Stellung genommen hat, und sich so nicht klar einer Thematik zuordnen lässt. Gleiches gilt für den damaligen Vizekanzler Olaf Scholz. Die Minister und Ministerinnen tauchen hingegen innerhalb ihres thematischen Clusters auf.

Abbildung 9 Semantisches Netzwerk mit Parlamentariern als Knoten

Fazit

Durch die offene Herangehensweise an den Datensatz wurden die in dem Seminar durchgeführten Analysen nicht von vornherein beeinflusst. Die explorative Datenanalyse hat den Seminarteilnehmenden außerdem weitgehende Freiheiten gelassen in Richtungen zu gehen, welche sie selbst als interessant und untersuchungswürdig angesehen haben. Aufgrund des begrenzten Zeitraums des Seminars, wäre allerdings eine tiefergehende Überprüfung einer bestimmten vorher gegebenen Hypothese möglich gewesen. Diese tiefgehende Analyse könnte in einem weiteren Seminar erfolgen. Dort könnten dann die in diesem Seminar hervorgebrachten Ergebnisse als Hypothesen dienen. Dadurch wäre sichergestellt, dass der Datensatz für eine Überprüfung der Hypothese geeignet ist. Spannend wäre sicherlich auch den zeitlichen Verlauf der vorhandenen Reden in einer gesonderten Analyse zu berücksichtigen. Zum Beispiel wie sich das Netzwerk der Parlamentarier mit der Zeit verändert, welche Themen mit der Zeit dazukommen und welche wieder verschwinden. Vor allem der Einfluss von Corona auf die Debatten im Bundestag wurde in diesem Seminar nicht weiter unter die Lupe genommen.

Die doch sehr schiefe Verteilung von Redelängen und Anzahl gehaltener Reden in Abbildung 1 und Abbildung 3 ist zwar durchaus intuitiv, jedoch nicht unbedingt selbstverständlich. Das die Anzahl der gehaltenen Reden auf Parteiebene bis zu einem gewissen Grad mit der Sitzverteilung der Parteien im Bundestag zusammenhängt ist zu erwarten gewesen.

Das starke Clustering in dem Netzwerk mit Reden als Knoten und dem Netzwerk mit Parlamentariern als Knoten ist sehr erfreulich, und nicht in diesem Ausmaß erwartet worden. Vor allem durch die thematische Sinnhaftigkeit der Cluster in den beiden Netzwerken wird die gewählte Form der Kantengewichtung bestätigt. Überraschend ist hier jedoch die Abgeschlagenheit des Gesundheitsclusters, da dieses durch die Allgegenwärtigkeit von Corona ab Anfang 2020 zentraler erwartet wurde.

Anhang

Comments
0
comment
No comments here
Why not start the discussion?