Wirksamkeitsforschung, religionsdidaktische

(erstellt: März 2024)

Artikel als PDF folgt!

Permanenter Link zum Artikel: https://bibelwissenschaft.de/stichwort/400002/

Digital Object Identifier: https://doi.org/10.23768/wirelex.400002

Eine Person kommt an eine tiefe Schlucht, über die zwei Hängebrücken führen. Eine der beiden Brücken ziert das Amulett einer Schamanin, die andere die Prüfplakette eines technischen Überwachungsvereins. Welche Brücke wird die Person nehmen? Wirksamkeitsforschung ist in der Religionsdidaktik das funktionale Äquivalent der Prüfplakette. Sofern fachgerecht durchgeführt, weist sie nach, ob spezifische Unterrichtsszenarien oder Faktoren von Unterricht bei den Lernenden einen spürbaren und überzufälligen Effekt auslösen oder nicht. Wirksamkeitsforschung ist somit geeignet, den Anteil anekdotischer Evidenz innerhalb der religionsdidaktischen Diskussion zu reduzieren. Im Folgenden wird der Begriff der Wirksamkeitsforschung zuerst definiert (1.), um dann unterschiedliche Designs zu beschreiben (2.). Es schließen eine Übersicht über religionsdidaktische Wirksamkeitsstudien (3.), eine Diskussion der Grenzen solcher Studien (4.) und ein Ausblick (5.) an.

1. Begriff der Wirksamkeitsforschung

Von einer Wirkung kann gesprochen werden, wenn eine Maßnahme zur Veränderung eines Zustands oder eines Prozesses führt (vgl. https://dictionary.apa.org/intervention). Zerlegt man diese elementare Definition in ihre Bestimmungsmomente, legt sie zuerst ein Phänomen zugrunde. Was als Phänomen herangezogen wird, hängt von der wissenschaftlichen Disziplin ab. In der Medizin kann es ein Krankheitsbild sein, in der Physik ein Zapfen in einer Spule. In der Religionsdidaktik wird es sich bei diesem Phänomen in der Regel um einen Aspekt religiösen Lernens oder religiöser Bildung handeln. Zweitens bedarf es einer Maßnahme bzw. Intervention. Ob diese intentional gerichtet ist oder nicht, spielt für obige Definition erst einmal keine Rolle. Entscheidend ist aber, dass zwischen Intervention und Phänomen ein Zusammenhang angenommen wird, denn gemäß Definition beeinflusst die Intervention das Phänomen. Nimmt man etwa die Frömmigkeit eines Menschen, verstanden als Teilnahme an kirchlichen Glaubensvollzügen, als Phänomen, könnte es sich bei der religiösen Sozialisation in der Familie um eine nicht-intentionale Intervention im Sinn der obigen Definition handeln, und bei Maßnahmen der Sakramentenkatechese um intentionale Maßnahmen. Drittens löst die Intervention beim Phänomen eine Veränderung aus. Erst wenn eine solche Veränderung festgestellt wird, kann von einer Wirkung der Intervention auf das Phänomen gesprochen werden. In dieser Feststellung sind zwei Aspekte vorausgesetzt: Zum einen lassen sich beim Phänomen zwei Qualitäten beobachten, nämlich eine vor der Intervention und eine nach dieser, die sich voneinander unterscheiden. Zum anderen besteht zwischen Intervention und der Veränderung der Qualität des Phänomens ein kausaler Zusammenhang. Vor allem Letzteres ist nicht trivial, denn eine solche Kausalität ist theoretisch zu bestimmen. Dass eine Intervention und die Veränderung der Qualität eines Phänomens – mehr oder weniger – gleichzeitig auftreten, ist für einen Wirkzusammenhang zwar notwendig, nicht aber hinreichend, denn es könnte sich auch um eine Koinzidenz, d.h. eine zufällige Parallelität zweier Ereignisse handeln. Erst eine theoretisch plausible Erklärung, warum die beobachtete Veränderung durch die Intervention ausgelöst werden könnte, liefert einen hinreichenden Grund, von einer Wirkung zu sprechen.

Wirksamkeitsforschung untersucht, ob theoretisch für plausibel erachtete Zusammenhänge zwischen einer Intervention und der Qualität eines Phänomens sich in der Wirklichkeit tatsächlich rekonstruieren lassen (May, 2012; Reichardt, 2005). Das Grundmuster von Wirksamkeitsforschung lässt sich demnach folgendermaßen grafisch darstellen (vgl. Abb. 1).

Abb. 1: heuristisches Grundmodell der Wirksamkeitsforschung © Riegel.

In der Wirksamkeitsforschung wird die Qualität des untersuchten Phänomens zu einem Ausgangszeitpunkt (Qt1) und zu einem Endzeitpunkt (Qt2) untersucht, während zwischen beiden Zeitpunkten die Maßnahme, von der eine Wirkung auf das Phänomen erwartet wird, zum Einsatz kommt. Im Abgleich von Qt1 und Qt2 lässt sich bestimmen, ob es zu einer Veränderung gekommen ist.

Um innerhalb dieses Grundmodells einen sicheren Schluss auf die Wirksamkeit der Intervention zu ermöglichen, bedarf es der Einrichtung von mindestens zwei Gruppen (Chambless/Ollendick, 2001). Die eigentliche Versuchsgruppe durchläuft die zu testende Intervention. Parallel dazu bedarf es einer Kontrollgruppe, denn die beobachteten Veränderungen innerhalb der Versuchsgruppe zwischen Qt1 und Qt2 könnten auch durch die Messwiederholung bedingt sein oder durch Faktoren, die bei der Messung nicht berücksichtigt wurden. Wenn ein religionsdidaktisches Projekt etwa die Wirkung eines performativen Unterrichtssettings auf die Kenntnis eines religionsdidaktischen Sachverhalts überprüfen will, wird es auch das Wissen der Schülerinnen und Schüler vor und nach der Intervention bestimmen. Alleine die Wiederholung der Wissensfragen könnte aber bereits dazu führen, dass sich der Wert der Lerngruppe erhöht. Ist dem tatsächlich so, müsste sich dieser Effekt auch in einer Kontrollgruppe zeigen, die zwischen t1 und t2 irgendeinen Unterricht durchläuft. Um jedoch zu zeigen, dass die Veränderung bzw. wie viel der Veränderung im Wissen der Schülerinnen und Schüler auf das performative Setting zurückzuführen ist, muss auch die Kontrollgruppe eine Unterrichtseinheit zum untersuchten Sachverhalt durchlaufen, die ohne performative Elemente auskommt (z.B. Fricke/Riegel, 2011). Wirksamkeitsforschung erfolgt demnach gemäß einer grundlegenden Logik, die die Veränderungen der Qualitäten einer Untersuchungs- und einer Kontrollgruppe vergleicht, wobei sich die Interventionen von Untersuchungs- und Kontrollgruppe möglichst nur im zu testenden Aspekt unterscheiden, sonst die Bedingungen jedoch vergleichbar gehalten werden.

2. Designs der Wirksamkeitsforschung

Im Rahmen der eben beschriebenen Grundlogik von Wirksamkeitsforschung lassen sich unterschiedliche Designs rekonstruieren (vgl. https://dictionary.apa.org/intervention-research). Im Folgenden werden Prä-Post-Designs, Regressions- und Strukturgleichungsdesigns, die fachdidaktische Entwicklungsforschung und qualitative Wirkungsforschung beschrieben.

2.1 Prä-Post-Designs

Das klassische Design verwirklicht besagte Grundlogik in einem Prä-Post-Design (May, 2012). In einem Prätest werden die Ausgangsbedingungen sowohl in der Untersuchungs- als auch in der Kontrollgruppe gemessen. Es folgt die Intervention, die sich zwischen Untersuchungs- und Kontrollgruppe nur im zu testenden Merkmal unterscheidet. Anschließend werden die Endbedingungen in beiden Gruppen in einem Posttest gemessen. Sollte für die Untersuchungsfrage auch die Nachhaltigkeit der Veränderung von Interesse sein, kann man mit hinreichendem Abstand zum Posttest einen weiteren Posttest durchführen.

Innerhalb dieses Grunddesigns kann zwischen Efficacy- und Effectiveness-Studien unterschieden werden (Singal/Higgins/Waljee, 2014). Bei Efficacy-Studien handelt es sich um eine Intervention unter klinischen Bedingungen. In Efficacy-Studien können somit die Rahmenbedingungen einer Intervention sowohl in der Untersuchungs- als auch in der Kontrollgruppe stabil gehalten werden, sodass durch den Untersuchungsaufbau garantiert wird, dass sich die Testbedingungen alleine im zu überprüfenden Merkmal unterscheiden. Zusätzlich wird die Qualität dieser Studien durch die zufällige Zuweisung der Teilnehmenden auf die Untersuchungs- und Kontrollgruppe gewährleistet, um eine Verzerrung der Tests durch Unterschiede innerhalb beider Gruppen auszuschließen (Sibbald/Roland, 1998). In diesem Fall spricht man von sogenannten Randomized Control Trials, die als Goldstandard der Wirksamkeitsforschung gelten (Backmann, 2017). Efficacy-Studien erlauben deshalb vor allem einen Schluss auf die interne Validität der überprüften Vermutung.

Effectiveness-Studien finden dagegen unter natürlichen Bedingungen statt, in denen die Wirkung einer Maßnahme unter Alltagsbedingungen getestet wird. Bei Effectiveness-Studien fließen in die Wirkung der Intervention also weitere Faktoren ein, die durch den Untersuchungsaufbau nicht kontrolliert werden können. Da sich die Untersuchungs- und die Kontrollgruppe bei Effectiveness-Studien jedoch im selben Alltag bewegen, geben diese Studien über die Wirksamkeit der Intervention in natürliche Anwendungssituationen Auskunft. Auch bei diesen Studien ist die zufällige Zuweisung der Teilnehmenden auf die Untersuchungs- und die Kontrollgruppe ein Qualitätsmerkmal. Effectiveness-Studien bestätigen damit vor allem die externe Validität der überprüften Vermutung.

2.2 Regressions- und Strukturgleichungs-Designs

Alternativ zu Prä-Post-Designs lassen sich Wirkungen auch in Regressionsverfahren rekonstruieren (Wolf/Best, 2010, 607-927). Regressionsverfahren messen den Effekt sogenannter unabhängiger Variablen auf eine abhängige Variable, wobei die abhängige Variable das zu erklärende Phänomen repräsentiert und die unabhängigen Variablen mögliche Einflussfaktoren. Liegen die Variablen nur latent vor, d.h. stellen einen gemeinsamen Faktor dar, der mehrere Items miteinander verbindet, zieht man Strukturgleichungsmodelle heran (Reinecke/Pöge, 2010; Gäde/Schermelleh-Engel, 2023). In beiden Fällen werden Korrelationen zwischen gemessenen Variablen ausgewertet und aufeinander bezogen.

Korrelationen drücken für sich genommen ungerichtete Zusammenhänge aus. Wenn zwei Variablen miteinander korrelieren, weiß man, dass sie sich in Abhängigkeit voneinander verändern, nicht aber, welche der beiden Variablen ursächlich auf die andere wirkt. Letzteres lässt sich ausschließlich anhand theoretischer Überlegungen bestimmen. Wenn also Regressions- und Strukturgleichungs-Designs eingesetzt werden, um die Wirkung bestimmter Faktoren auf das zu untersuchende Phänomen zu ermitteln, bedarf es einer starken Theorie, die die Plausibilität und vor allem die Richtung der unterstellten Wirkung schlüssig begründet. In der pädagogischen und fachdidaktischen Forschung wurde in den letzten Jahrzehnten deshalb um Modelle gerungen, die das Wirkgefüge im Unterricht angemessen darstellen, um entsprechende Unterrichtsforschung zu ermöglichen (z.B. Fischer/Borowski/Kauertz/Neumann, 2010; Klieme/Rakoczy, 2008; Praetorius/Klieme/Herbert/Pinger, 2018). Im Rahmen solcher theoretischer Modelle lässt sich bestimmen, welche Variablen schlüssige Wirkfaktoren für ein zu untersuchendes Phänomen darstellen bzw. – technisch gesprochen – welche Variablen wie in die Regressionsgleichung eingespielt werden. Mit dem entsprechenden Regressionsverfahren kann dann die Stärke der Wirkung bestimmt werden.

Offensichtlich werden bei Regressions- und Strukturgleichungs-Designs weder zwei Tests für die Messung eines Phänomens verlangt noch eine Untersuchungs- und eine Kontrollgruppen ausgewiesen. Beides ist nicht notwendig. Zum einen ist die Veränderung des untersuchten Phänomens durch die Varianz in der abhängigen Variablen repräsentiert, denn in besagten Designs wird rekonstruiert, unter welchen Bedingungen diese Variable wie stark ausgeprägt ist. Zum anderen stellen die unabhängigen Variablen die möglichen Interventionen dar und die Ausprägung dieser Variablen die Intensität dieser Interventionen. Wenn in einer Regressionsanalyse z.B. gezeigt wird, dass die Identifikation mit einer Religionsgemeinschaft vor allem durch die religiöse Sozialisation in der Familie bedingt ist (Hohenschue/Riegel/Zimmermann, 2022), steht das für einen Wirkzusammenhang, gemäß dem die Identifikation umso größer ausfällt, je stärker besagte Sozialisation verlaufen ist.

Insbesondere bei komplexen Phänomenen, wie sie für den fachdidaktischen Bereich typisch sind, kommen einfache Regressionsverfahren schnell an ihre Grenze. Wenn etwa der Leistungsstand eines Jahrgangs im Fach Religion erfasst werden soll, spielen wahrscheinlich nicht nur die Intelligenz und die religiöse Sozialisation der Schülerinnen und Schüler eine Rolle, sondern auch das Lernklima in der Klasse. Stellen Intelligenz und religiöse Sozialisation individuelle Merkmale der Schülerin oder des Schülers dar, handelt es sich beim Lernklima um eine Variable, die sich auf eine Gruppe von Schülerinnen und Schülern bezieht. Derartige theoretische Vorüberlegungen lassen sich in Mehrebenenanalysen empirisch berücksichtigen (Langer, 2010). Umgekehrt bedarf es für die Untersuchung von Wirkzusammenhängen in komplexen Alltagssituationen aber auch solcher Analysen, um dem Problem zu entgehen, dass die ermittelten Wirkeffekte Messartefakte darstellen.

Ein weiteres Problem von Regressions- und Strukturgleichungsdesigns ist, dass sie in der Regel punktuelle Zusammenhänge innerhalb komplexer Alltagskonstellationen in den Blick nehmen. Die Ergebnisse einzelner Studien sind damit kaum verallgemeinerbar für einen komplexeren Wirkungszusammenhang. Diesem Problem kann mit Metaanalysen (Döring, 2023) begegnet werden, wie es etwa die sogenannte Hattie-Studie getan hat, die auf der Grundlage von etwa 800 internationalen Metastudien, welche ihrerseits auf über 50.000 Einzelstudien beruhen, herausgearbeitet hat, was den Lernerfolg von Schülerinnen und Schülern bedingt (Hattie, 2009). Metaanalysen haben den Vorteil, dass sie die Vielfalt empirischer Erkenntnisse zu einem Phänomen aus unterschiedlichen Kontexten systematisch aufeinander beziehen und somit den Stand der Erkenntnis innerhalb eines Forschungsfelds regelgeleitet bilanzieren. Sie sind jedoch nur möglich, wenn hinreichend viele Einzelstudien vorliegen und diese Einzelstudien den notwendigen Qualitätsstandards empirischer Studien gerecht werden.

2.3 Fachdidaktische Entwicklungsforschung

Ein relativ junges Design der Wirksamkeitsforschung stellt die fachdidaktische Entwicklungsforschung dar (→ Entwicklungsforschung, fachdidaktische; Plomp, 2013; Prediger/Gravemeijer/Confrey, 2015; Reinmann, 2005). Es verdankt sich dem spezifisch fachdidaktischen Interesse zu wissen, welche Unterrichtsinterventionen in welchen Konstellationen fachlichen Lernens wie wirken. Fachdidaktische Entwicklungsforschung fragt somit nach Wirkzusammenhängen in theoretisch eng eingegrenzten Unterrichtssettings und bringt in diesem Sinn sogenannte lokale Theorien hervor, die für sich genommen nur im Kontext dieser Unterrichtssettings gelten. Erkenntnisse einer religionsdidaktischen Entwicklungsforschung können somit nicht ohne Weiteres auf mathematikdidaktische Fragestellungen übertragen werden.

Charakteristisch für die fachdidaktische Entwicklungsforschung ist ihr Fokus auf dem Prozess (McKenney/Reeves, 2019; Komorek/Prediger, 2013). Dieser Prozess wird in vier idealtypischen Schritten vollzogen, die mehrmals durchlaufen werden können. Den ersten Schritt stellt die Wahrnehmung und theoretische Strukturierung des zu untersuchenden Phänomens dar. Im Projekt Barbara Strumanns handelte es sich hierbei etwa um die Befähigung der Schülerinnen und Schüler, Erfahrungen mit Gewalt sprachlich auszudrücken (Strumann, 2017, 8-72). Es folgt die Entwicklung bzw. das Designen einer Maßnahme, mit der das zu untersuchende Phänomen wunschgemäß verändert werden kann. Im Projekt Strumanns war das die Auseinandersetzung mit Psalmen im Religionsunterricht (Strumann, 2017, 88-128). Im dritten Schritt wird die Maßnahme durchgeführt und mit wissenschaftlichen Methoden evaluiert. Bei Strumann konzentrierte sich die Evaluation vor allem auf die von den Schülerinnen und Schülern in der ersten und in der letzten Sequenz erstellten Psalmen, weil sich in deren Abgleich die Veränderung der Kompetenz, biblische Sprache zu aktualisieren und eine „Gewalt überwindende Sprachmacht“ (Strumann, 2017, 81) zu erreichen, bestimmen lässt. Anhand dieser Erkenntnisse kann dann eine lokale Theorie zum untersuchten Phänomen formuliert werden. Bei Strumann sind es Eckpunkte eines religionspädagogischen Umgangs mit Gewalterfahrungen im Sinn einer Sprachschule für die Freiheit (Strumann, 2017, 169-175).

Innerhalb dieses Forschungszyklus werden die Schritte zwei und drei so lange durchlaufen, bis eine wirksame Maßnahme entstanden ist, die sich in der unterrichtlichen Praxis bewährt. Diesen iterativen Charakter hat die fachdidaktische Entwicklungsforschung bzw. Design Research aus ihren ingenieurwissenschaftlichen Ursprüngen beibehalten. Ihr Ziel ist es, in einem steten Wechselspiel von Entwicklung und Test zu einem ausgereiften Modell zu kommen. In diesem Sinn wird die erste Maßnahme, die im Rahmen von fachdidaktischer Entwicklungsforschung entwickelt wurde, auch als Prototyp bezeichnet. Allerdings sei hier angemerkt, dass die Entwicklung einer unterrichtspraktischen Maßnahme nicht das eigentliche Ziel fachdidaktischer Entwicklungsforschung darstellt, sondern als Kollateralnutzen betrachtet werden kann. Im Kern des Forschungsinteresses dieses Designs von Wirksamkeitsforschung steht die Entwicklung einer Theorie zu einem konkreten Aspekt fachlichen Lernens. Dass sich solche Entwicklungen über mehrere Jahre ziehen können, zeigt etwa das Projekt „Sprachbildend Mathematik unterrichten lernen“, das sich in sieben Zyklen über fünf Jahre erstreckte (Prediger, 2019).

Gleicht man den Prozess fachdidaktischer Entwicklungsforschung mit dem Grundmodell von Wirksamkeitsforschung ab, wird dem Aspekt von Veränderung im dritten Schritt und durch den iterativen Charakter Rechnung getragen. Eine Kontrollgruppe im eigentlichen Sinn gibt es jedoch nicht. Mit gewissen Einschränkungen kann man die Wiederholung des Experiments mit einem verbesserten Prototypen als Untersuchungsgruppe verstehen, deren Ergebnisse mit denjenigen des ersten Experiments als Kontrollgruppe abgeglichen werden. Auch lassen sich in der Evaluation der Experimente Erhebungsformen berücksichtigen, die die individuellen Erfahrungen der Beteiligten mit der Maßnahme erfassen und somit einen Schluss auf deren Wirkung zulassen. Beides sind aber weichere Lesarten dessen, was Wirksamkeitsforschung auszeichnet. Wer einen starken Begriff von Wirksamkeitsforschung vertritt, wird fachdidaktische Entwicklungsforschung somit wohl nicht zu den legitimen Designs dieses Forschungsformats rechnen.

2.4 Qualitative Designs

Mit qualitativen Designs wird definitiv ein Grenzbereich der Wirksamkeitsforschung erreicht, der vor allem in der → Evaluation eingesetzt wird. Insofern Evaluationen aber zum Ziel haben, die Wirksamkeit von Maßnahmen oder Programmen zu überprüfen, fallen sie noch in den Bereich der Wirksamkeitsforschung – zumindest in ihrer weichen Lesart. Gemeinhin wird zwischen summativen und formativen Evaluationen unterschieden (Scriven, 1991). Nehmen summative Evaluationen die Ergebnisse einer Maßnahme oder eines Programms in den Blick, begutachten formative Evaluationen den Prozess, der durch die Maßnahme oder das Programm ausgelöst und gesteuert wird. In der Regel kommen bei beiden Typen sozialwissenschaftliche Methoden zur Anwendung.

In einer ersten Unterscheidung könnte man diejenigen Evaluationen zu den qualitativen Designs zählen, die mit Methoden arbeiten, die der qualitativen Sozialforschung (→ Qualitative Sozialforschung in der Religionspädagogik) zugeschrieben werden. Evaluationen, die mit Fragebögen mit vor allem geschlossenen Fragen arbeiten, stünden dann für ein quantitatives Design. Diese Unterscheidung trägt jedoch dem spezifischen Charakter der rekonstruierten Wirkzusammenhänge, der die Einsichten beider Zugänge zum Feld auszeichnet, nicht hinreichend Rechnung: Wirkung wird aus den Auskünften der Beteiligten abgeleitet und stellt somit eine subjektiv wahrgenommene Größe dar. Deshalb wird hier die grundlegendere Perspektive Uwe Flicks übernommen, der sämtliche Evaluationen als qualitativ einstuft, die den Prinzipien qualitativer Sozialforschung entsprechen (Flick, 2010, 12-14). Demnach fallen darunter alle Evaluationsprojekte, die ihre Methode am zu evaluierenden Gegenstand ausrichten, ihre Befunde wesentlich aus der Perspektive der Beteiligten heraus rekonstruieren und den Evaluationsprozess im laufenden Verfahren kritisch reflektieren. In einem solchen Design können dann → Fragebögen ebenso zur Evaluation herangezogen werden wie Aussagen der Betroffenen in Einzelinterviews (→ Leitfadeninterviews) oder Gruppendiskussionen (→ Moderierte Gruppendiskussionen) sowie Videoprotokolle (→ Videoanalyse) von ausgewählten Prozessen. Entscheidend für den qualitativen Charakter dieser Form von Wirksamkeitsforschung bleibt der Ansatz, Wirkung aus dem subjektiven Erleben der Beteiligten abzuleiten. – Um Missverständnissen zu wehren: Mit der Einstufung dieser Zugänge zum Feld als „subjektiv“ ist keine Wertung verbunden etwa in dem Sinn, in qualitativen Designs würde keine wirklichen Wirkungen erhoben.

Qualitative Designs sind überall dort angesagt, wo sich die zu rekonstruierende Wirkung nicht anhand konkreter Zahlenwerte angemessen fassen lässt und/oder die am zu evaluierenden Prozess Beteiligten nicht in der Lage sind, ihre Wahrnehmung in solchen Zahlen auszudrücken. Einschlägige Beispiele wären die Evaluation kultureller Bildung (Hill, 2011), der personalen Aspekte von Suchtprävention (Eppler, 2011) oder die Wirkung von Krankenhausseelsorge (Höfler, 2022). In der Medizin werden qualitative Designs auch als Vorstudien für Randomized Control Trails eingesetzt (z.B. Schwarz/Wienert/Bethge, 2015).

Die Stärke qualitativer Designs liegt in ihrer Nähe zu den am Prozess beteiligten Personen. Sie binden die Beteiligten in die Wirksamkeitsprüfung ein, geben ihnen eine eigene Stimme und erkennen sie somit als wichtige Faktoren im Wirkgefüge an. Qualitative Designs erhöhen, sofern sach- und adressatengerecht durchgeführt, das Commitment der Beteiligten. Damit ist aber auch klar, dass qualitative Designs mit den untersuchten Wirkprozessen interagieren, die diagnostizierte Wirkung unter Umständen auch wesentlich durch die Evaluation selbst bedingt sein kann. An dieser Stelle wäre die maximale Distanz gegenüber den klassischen Ansätzen der Wirksamkeitsforschung, wie sie sich in den Prä-Post-Designs niederschlägt, erreicht.

3. Religionsdidaktische Wirksamkeitsstudien

In der religionsdidaktischen Forschung lassen sich Studien aller vier Designs antreffen. Die folgende Übersicht ist bewusst exemplarisch gehalten, um die zentralen Strukturen des Forschungsfeldes herauszuarbeiten. Auf eine vollständige Auflistung aller religionsdidaktischer Wirksamkeitsstudien wird verzichtet, weil diese mit dem Datum der Veröffentlichung dieses Beitrags veraltet wäre.

Prä-Post-Designs stellen einen aufwändigen Zugang zum Feld dar, weil sie nicht nur mindestens zweier Tests und einer Intervention bedürfen, sondern neben einer Untersuchungs- auch eine Kontrollgruppe für die Teilnahme gewonnen werden muss. Dennoch lassen sich in der Religionsdidaktik einige solcher Designs finden, die sich auf die Wirksamkeit des Religionsunterrichts im Allgemeinen (Ritzer, 2010) oder der Aspekte seiner Realisierung wie Perspektivenwechsels im interreligiösen Lernen (Schweitzer/Bräuer/Boschki, 2017), leibliches Lernen (Fricke/Riegel, 2011) oder kirchenraumpädagogische Zugänge (Riegel/Kindermann, 2017) beziehen. Daneben finden sich Wirksamkeitsstudien zur Wertebildung im Bereich beruflicher Bildung (Wagensommer/Schweitzer, 2012), zur Religionslehrpersonenbildung am Beispiel des Praxissemesters (Caruso, 2019), zu besonderen Organisationsformen des Religionsunterrichts wie dem konfessionell-kooperativen Religionsunterricht (Riegel/Zimmermann, 2022), zur Gleichnisdidaktik (Hermans, 1990; van der Zee, 2007) oder zum interreligiösen Lernen (Sterkens, 2001). In allen diesen Fällen handelt es sich um Effectiveness-Studien, denn die Wirkung wird stets in Alltagssituationen erhoben. Aus fachdidaktischer Perspektive erscheint das als angemessen, denn Didaktik ereignet sich im unterrichtlichen Alltag, und für den Religionsunterricht ist entscheidend, was sich in ihm – bei allen Varianzen, die diesen Unterricht auszeichnen – als wirksam erweist. In der Regel arbeiten diese Studien mit Gelegenheitsstichproben. Wo die Zuordnung der Teilnehmenden zur Untersuchungs- und Kontrollgruppe zufällig geschieht, kann oft ein Bias in der Gesamtstichprobe festgestellt werden. So haben am Projekt zur Wirksamkeit kirchenraumpädagogischer Maßnahmen im Rahmen von Religionsunterricht, das die Zuordnung zur Untersuchungs- und zur Kontrollgruppe per Zufallsverfahren geregelt hat, vor allem Lehrpersonen teilgenommen, die sich für solche Maßnahmen begeistern können (Riegel/Kindermann, 2017). Religionsdidaktische Wirksamkeitsforschung, die sich des Prä-Post-Designs bedient, kann den sogenannten Gold-Standard eines Randomized Control Trails bisher somit nur bedingt einlösen. Auch komplexere Analyseverfahren wie Mehrebenenanalysen, die die Schichtung der Stichprobe abbilden, wurden bisher noch nicht angewendet.

Das Gros religionsdidaktischer Wirksamkeitsforschung dürfte sich Regressions- und Strukturgleichungsdesigns bedienen. Hierbei handelt es sich um elementare statistische Routinen, die in nahezu allen quantitativ-empirischen Projekten, die über eine rein deskriptive Statistik hinauskommen, anzutreffen sind. Aufgrund dieser elementaren Bedeutung solcher statistischer Verfahren stellt sich zuerst die Frage, ob jede Studie, die sich Regressions- oder Strukturgleichungsmodellen bedient, ein Beispiel für Wirksamkeitsforschung darstellt. In diesem Beitrag wird die Position vertreten, dass nur solche Studien zur Wirksamkeitsforschung gezählt werden sollten, deren elementare Forschungsfrage die Wirksamkeit eines Sachverhalts auf das zu untersuchende Phänomen beinhaltet. Wenn etwa im Projekt zur Heterogenitätsfähigkeit des Religionsunterrichts per linearer Regression herausgearbeitet wird, welche Faktoren das unterrichtliche Angebot zu Standpunktfähigkeit und zur Fähigkeit zum Perspektivenwechsel bedingen (Riegel/Jumpertz/Gronover/Brügge-Feldhake/Hofmann/Krämer/Boschki, 2022), handelt es sich hier zwar um die Rekonstruktion eines – angesichts der Stichprobe möglichen! – Wirkzusammenhangs im Religionsunterricht, nicht aber um das Ergebnis einer sich dezidiert diesem Wirkzusammenhang widmenden Studie. Gegenstände religionsdidaktischer Wirksamkeitsstudien im beschriebenen Sinn, die sich Regressions- bzw. Strukturgleichungsverfahren bedienen, sind z.B. die Effizienz des Religionsunterrichts (Bucher, 2001), die Einstellung Studierender zum Theologiestudium (Lück, 2012), die Ansprechbarkeit konkreter Schüler- und Schülerinnen-Typen im interreligiöses Lernen (Unser, 2019), die Frage nach empirisch fassbaren Kompetenzmustern religiösen Lernens (Benner u.a., 2011) oder die Kommunionkatechese (Forschungsgruppe "Religion und Gesellschaft", 2015) bzw. Konfirmandenarbeit (Schweitzer/Ilg/Simojoki, 2010). In allen diesen Studien werden per Regression oder Strukturgleichungen Faktoren herausgearbeitet, die sich förderlich oder hemmend auf einen gewünschten Zustand auswirken. Für alle diese Studien gilt, dass sie punktuelle Einblicke in die untersuchten Wirkzusammenhänge eröffnen, weil ihre Samples entweder Gelegenheitsstichproben darstellen und/oder immer nur eine spezifische Kohorte untersucht werden konnte. Eine hinreichende Anzahl einschlägiger Studien für eine seriöse Metaanalyse, die das Problem punktueller Einsichten prinzipiell beheben kann, liegt für kaum ein Thema vor. Und selbst in den wenigen Fällen, in denen eine Metastudie möglich wäre, stößt man auf markante Probleme, weil sich die einschlägigen Studien in ihren Zugängen zum Feld zum Teil stark unterscheiden (Fuchs/Wiedemann, 2022, 143-155). In der Regel bestehen vorliegende Synthesen somit im hermeneutischen Bezug der Befunde einschlägiger Studien (vgl. für die religionspädagogische Professionsforschung z.B. Pirner, 2015; Rothgangel, 2015).

Die fachdidaktische Entwicklungsforschung stellt in der Religionsdidaktik ein relativ junges Design dar. Die einschlägigen Studien beziehen sich auf den Umgang mit Gewalterfahrung (Strumann, 2017), die Entwicklung von Auferstehungsvorstellung an Kunstwerken (Gärtner, 2017), den Umgang mit der Theodizeefrage (Blanik, 2018), den Umgang mit exegetischem Wissen im Religionsunterricht (Wieser, 2017), die Wirkung von Inklusion und Exklusion im ästhetischen Lernen (Gärtner/Hans, 2018) oder die Förderung der Argumentationsfähigkeit (Schwarzkopf, 2016). In allen diesen Projekten kommen vor allem qualitative Methoden zum Einsatz, was vom Design selbst nicht notwendig vorausgesetzt wird. So arbeitet das mathematikdidaktische Projekt zur Wirksamkeit verschiedener Maßnahmen, um Schülerinnen und Schülern das Prozentrechnen beizubringen, mit einem klassischen Prä-Post-Design, folgt in seinem Prozedere aber dem Zyklus der fachdidaktischen Entwicklungsforschung (Pöhler/Prediger, 2015). Aus einer fachfremden Perspektive heraus fragt Susanne Prediger an, ob sich der Gegenstand religiösen Lernens prinzipiell der Erfassung durch standardisierte Instrumente und gemäß psychometrischen Standards entzieht (Prediger, 2017, 172). Das würde dann aber auch für die oben skizzierten Prä-Post-Designs und Designs mit Regressions- und Strukturgleichungsverfahren gelten. Ansonsten gilt auch für die fachdidaktische Entwicklungsforschung, dass ihre Einsichten in Wirkzusammenhänge punktuell sind und nicht ohne Weiteres verallgemeinert werden können.

Qualitative Designs im Rahmen von Evaluationsstudien stellen ebenfalls einen relativ kleinen Bereich innerhalb der religionsdidaktischen Forschung dar. Die größte Aufmerksamkeit findet wohl der → konfessionell-kooperative Religionsunterricht (kokoRU), der in verschiedenen Bundesländern eingeführt wurde und deshalb zu evaluieren ist (Schweitzer/Biesinger, 2002; Kuld u.a., 2009; Gennerich/Mokrosch, 2016; Gennerich/Käbisch/Woppowa, 2021; Riegel/Zimmermann, 2022). Der Blick auf diese Studien zeigt nicht nur, dass in Evaluationen vielfältige Erhebungsformen zum Einsatz kommen, die von Interviews über Gruppendiskussionen und teilnehmende Beobachtung bis hin zu Fragebögen reichen, sondern dass sich mit dem Maß an Einsichten in diese Organisationsform konfessionellen Religionsunterrichts der Schwerpunkt von qualitativen Methoden hin zu quantitativen verschiebt (Riegel/Schweitzer, 2022). Dennoch bedienen sich diese Evaluationen mit wenigen Ausnahmen qualitativer Designs im obigen Sinn. Weitere Sachverhalte religionsdidaktischer Evaluation sind z.B. die Religionslehrpersonenbildung durch das → Praxissemester an der Universität (Caruso, 2019), die Effekte religionsdidaktischer Fortbildungen (Ritzer, 2018; Schweitzer/Rutkowski, 2022), die Möglichkeiten, religionspädagogische Kompetenz zu erfassen (Hofmann, 2008), die Leistungsfähigkeit eines Blended-Learning-Ansatzes im Religionsunterricht (vgl. https://www.uni-muenster.de/imperia/md/content/fb2/d-praktischetheologie/irpp/publikationen/kro_evaluationsbericht_2022.endfassung.pdf) oder die Kommunionkatechese (→ Erstkommunion/Erstkommunionkatechese; Forschungsgruppe "Religion und Gesellschaft", 2015). Bislang stellen diese Projekte in der Regel singuläre Ereignisse dar, die den gegebenen Stand der evaluierten Maßnahme bilanzieren und an die Auftraggebenden zurückmelden. Weitergehende Maßnahmen wie eine Verbesserung des Status Quos oder Follow-Up-Evaluationen, die die Weiterentwicklung der zu evaluierenden Maßnahme prüfen, finden sich kaum. Die Ausnahme bildet hier wohl der kokoRU in Baden-Württemberg, der zuerst als Modellversuch evaluiert wurde (Schweitzer/Biesinger, 2002) und im Rahmen seiner Etablierung als ordentliche Organisationsform nochmals (Kuld u.a., 2009).

4. Grenzen religionsdidaktischer Wirksamkeitsforschung

Wirksamkeit ist ein innerhalb der → Pädagogik kontrovers diskutierter Begriff. Insbesondere Ansätze, die den Kern der Pädagogik in der Befähigung des Menschen zu einem selbstbestimmten und sinnvollen Leben verorten, stehen einer Orientierung an Wirksamkeit kritisch gegenüber, weil das, was als sinnvoll und gut erfahren wird, allein vom sich bildenden Subjekt bestimmt werden kann. Ob eine pädagogische Maßnahme wirkungsvoll ist, kann somit nur von ihrem Ergebnis her ermessen werden, welches zudem in höchst individuellen Bildungsprozessen wurzelt (z.B. Winkler, 2006). Allerdings zielt die Pädagogik dieser Ansätze, geht man stärker ins Detail, auch auf Neues, denn sie wollen dem sich bildenden Subjekt durch ihre Maßnahmen und Angebote Entwicklungsmöglichkeiten eröffnen. Andreas Polutta spricht in diesem Zusammenhang von einer „Potentialität“ […], die für sozialpädagogisches Denken und Handeln konstitutiv ist, wenn auch nicht zwangsläufig in Form der Feststellung und Messung von Effekten und keineswegs als Idee einer technologischen Machbarkeit“ (Polutta, 2014, 61). In diesem Zitat wird deutlich, dass sich die pädagogische Kritik an der Wirksamkeitsforschung nicht an der Wirkung pädagogischer Initiativen als solcher entzündet, sondern an einem Wirksamkeitsverständnis, das sich an im Vorfeld pädagogischer Maßnahmen definierten Zielen orientiert und nur das gelten lässt, was im Sinn dieser Ziele messbar nachgewiesen wird.

Diese begriffliche Präzisierung hat besonders im Religionsunterricht Gewicht, denn sein zentraler Gegenstand sind der → Glaube bzw. existentielle Fragen, was besondere Anforderungen an die Beziehungsdimension dieses Faches stellt (Boschki, 2003). Beiden Aspekten wird ein verantwortliches Unterrichtsarrangement Rechnung tragen und Religionsunterricht wird bzgl. beider Aspekte etwas bewirken wollen. Allerdings handelt es sich hierbei um ein bildendes Geschehen im eigentlichen Sinn, welches sich im Kern seiner Dynamik standardisierter Wirkmechanismen entzieht (Kropač, 2021). Zum einen ist Glaube an sich nicht lehrbar (Schweitzer, 2006, 26-37), zum anderen bleiben Beziehungen auf die interpersonalen Dynamiken in der Lerngruppe rückgebunden, die sich situativ ergeben. Diese besondere Verortung führte in der Religionsdidaktik zu einer gewissen Zurückhaltung, was die Erforschung der Wirksamkeit religiöser Bildungs- und Lernprozesse geführt hat (z.B. Mendl, 2012; Prediger, 2017). Gleichwohl dürfte die methodische Bandbreite, die das Spektrum der oben skizzierten Designs beinhaltet, die Möglichkeit eröffnen, vielfältige Wirkzusammenhänge auch in den genannten Kernbereichen des Religionsunterrichts angemessen zu erfassen. Insbesondere qualitative Designs sollten die Ansprüche einlösen, die für eine angemessene Erfassung individueller und ko-konstruktiver Bildungs- und Lernprozesse eingefordert werden.

Gleichzeitig zeigt bildungswissenschaftliche Forschung aber auch, dass selbst qualitativ komplexe Phänomene wie etwa die Atmosphäre in der Lerngruppe oder die Persönlichkeitsentwicklung der Schülerinnen und Schüler mit quantitativ orientierten Erhebungsinstrumenten erfasst werden können (z.B. Lotz/Lipowsky/Faust, 2013). Dass religionsdidaktische Wirksamkeitsforschung in dieser Hinsicht bislang eher zurückhaltend agiert, dürfte also weniger mit einer prinzipiellen Grenze der Erfassung spezifischer Phänomene religiöser Bildung und religiösen Lernens zu tun haben, als mit einer historischen Pfadabhängigkeit dieser Disziplin zu einer dezidiert geisteswissenschaftlich ausgerichteten Religionspädagogik und Theologie. Die Vorstellung, dass Zahlen qualitative Informationen repräsentieren und dass mathematische Modelle reale Sachverhalte hinreichend präzise und komplex abbilden, scheint immer noch tendenziell befremdlich zu wirken. Dazu kommt, dass ein derartiger Zugang zur Wirklichkeit eine statistische Kompetenz verlangt, die im sprachlastigen Theologiestudium nur in Ausnahmefällen gefördert wird. Die Zukunft wird zeigen, ob es sich hierbei um eine relative Grenze handelt, die sich durch einen stärkeren Kontakt der Religionsdidaktik mit den anderen Disziplinen der Bildungsforschung verschieben lässt.

5. Diskussion und Ausblick

In diesem Beitrag wird ein weiter Begriff von Wirksamkeitsforschung vertreten, der neben den klassischen Designs der Interventionsstudien im Prä-Post-Design auch Regressionsdesigns, fachdidaktische Entwicklungsforschung und Evaluationen in qualitativen Designs als Formen religionsdidaktischer Wirksamkeitsforschung akzeptiert. Das dürfte dem religionsdidaktischen Verständnis religiöser Bildung als eines in seinem Kern unverfügbaren Geschehens im lernenden Subjekt Rechnung tragen. Diese Entscheidung ist aber weder trivial noch folgenlos. So vertritt Friedrich Schweitzer in seinem Beitrag zur religionspädagogischen Wirksamkeitsforschung z.B. einen engeren Begriff dieses Forschungsformats (Schweitzer, 2020). Zur Veranschaulichung dieser Vorbehalte kann nochmals die eingangs beschriebene Situation mit der Hängebrücke und die unmittelbar darauf folgende Behauptung, Wirksamkeitsforschung sei das funktionale Äquivalent der Prüfplakette, herangezogen werden. Es verweist auf mindestens zwei Aspekte, die mit der Entscheidung, was als Wirksamkeitsforschung akzeptiert wird, einhergehen.

Erstens kann anhand des Beispiels durchgespielt werden, inwiefern die vorgestellten Designs den Anspruch einlösen können, das funktionale Äquivalent einer Prüfplakette zu sein. Religionsdidaktische Studien im Prä-Post-Design dürften diesem Anspruch genügen, selbst angesichts der Tatsache, dass solche Studien noch zu vereinzelt vorliegen, um tatsächlich gesicherte Kenntnisse über die generelle Wirksamkeit der in ihnen gezeigten Wirkzusammenhänge abzuleiten. Wirkstudien im Regressionsdesign und im Design der Entwicklungsforschung dürften den Ansprüchen an eine Prüfplakette dann gerade noch gerecht werden, wenn sie mit hinreichend robusten Verfahren durchgeführt werden. Letzteres dürfte auch für die oben beschriebenen qualitativen Designs gelten, wobei die wenigsten religionsdidaktischen Evaluationsprojekte diesem Anspruch genügen. Eher gleichen sie – um im Bild zu bleiben – einem begleitenden Coaching, während die Person die Hängebrücke überquert, ohne dass eine Prüfplakette gefunden werden konnte. Solche Studien sagen somit weniger etwas über die Stabilität der Brücke als darüber, wie sich die Person fühlt, während sie die Hängebrücke überquert.

Zweitens verweist das Beispiel der Hängebrücke darauf, dass mit der Entscheidung, was als Wirksamkeitsforschung gelten kann, auch Konsequenzen für religiöse Bildung verbunden sind. Die existentiellen Konsequenzen einer nicht tragenden Hängebrücke für die sie überquerende Person sind dabei bewusst impliziert, denn auch eine ineffektive religiöse Bildung hat existentielle Konsequenzen. Auch heute dürfte Friedrich Schweitzers Urteil von vor 15 Jahren gültig sein: „Noch immer wissen wir viel zu wenig darüber, was in der Praxis von Religionsunterricht tatsächlich geschieht und wie sich religionspädagogische Ansätze in der Praxis realisieren lassen“ (Schweitzer, 2008, 70). Nimmt man die öffentliche Debatte über Religion zum Maßstab und bedenkt, wie viele Menschen immer noch Religionsunterricht erfahren haben, wird man seine Effekte, was religionsbezogene Kompetenzen angeht, eher niedrig ansetzen müssen. Auch die aktuellen Austrittszahlen aus den Kirchen deuten nicht darauf hin, dass katechetische Angebote wirklich funktionieren, bei allen positiven Effekten, die einschlägige Evaluationsstudien rekonstruieren (Forschungsgruppe „Religion und Gesellschaft“, 2015; Schweitzer/Ilg/Simojoki, 2010). Natürlich kann man die beiden eben gewählten Indikatoren als unangemessen einstufen und von den intensiven Begegnungen erzählen, die man immer wieder im Religionsunterricht und in der Katechese erlebt. Letzteres stellt aber eher das funktionale Äquivalent des Amuletts am Pfosten der Hängebrücke dar. Der Sinn von Wirksamkeitsforschung liegt darin, derartige anekdotische Evidenz durch sozialwissenschaftlich-systematisch rekonstruierte Evidenz zu ersetzen.

Literaturverzeichnis

Backmann, Marius, What’s in a gold standard? In Defence of Randomized Controlled Trials, in: Medicine, Health Care, and Philosophy 20 (2017) 4, 513-523. DOI: 10.1007/s11019-017-9773-2.
Benner, Dietrich/Schieder, Rolf/Schluß, Henning u.a. (Hg.), Religiöse Kompetenz als Teil öffentlicher Bildung. Versuch einer empirisch, bildungstheoretisch und religionspädagogisch ausgewiesenen Konstruktion religiöser Dimensionen und Anspruchsniveaus, Paderborn 2011.
Blanik, Nicole, Theodizeedidaktik im Horizont von Krisensituationen. Wie Schülerinnen und Schüler Theodizee-Erklärungsmodelle entlang von fremd-biografischen Anforderungssituationen zu beurteilen lernen, Berlin 2018.
Boschki, Reinhold, „Beziehung“ als Leitbegriff der Religionspädagogik. Grundlegung einer dialogisch-kreativen Religionsdidaktik, Ostfildern 2003.
Bucher, Anton A., Religionsunterricht zwischen Lernfach und Lebenshilfe. Eine empirische Untersuchung zum katholischen Religionsunterricht in der Bundesrepublik Deutschland, Stuttgart 2001.
Caruso, Carina, Das Praxissemester von angehenden Lehrkräften. Ein Mixed-Methods-Ansatz zur Exploration ausgewählter Effekte, Weisbaden 2019.
Chambless, Dianne L./Ollendick, Thomas H., Empirically Supported Psychological Interventions: Controversies and Evidence, in: Annual Review of Psychology 52 (2001), 685-716. DOI: 10.1146/annurev.psych.52.1.685.
Döring, Nicola, Metaanalyse, in: Döring, Nicola (Hg.), Metaanalyse, Berlin, Heidelberg 2023, 873-921.
Eppler, Natalie, Welche Faktoren wirken unterstützend bei der Überwindung eines kompulsiven Drogengebrauchs?, in: Eppler, Natalie/Miethe, Ingrid/Schneider, Armin (Hg.), Qualitative und quantitative Wirkungsforschung: Ansätze, Beispiele, Perspektiven, Opladen 2011, 203-216.
Fischer, Hans/Borowski, Andreas/Kauertz, Alexander/Neumann, Knut, Fachdidaktische Unterrichtsforschung – Unterrichtsmodelle und die Analyse von Physikunterricht, in: Zeitschrift für Didaktik der Naturwissenschaften 16 (2010), 59-75.
Flick, Uwe, Qualitative Methoden in der Evaluationsforschung, in: Zeitschrift für Qualitative Forschung 10 (2010) 1, 9-18.
Forschungsgruppe „Religion und Gesellschaft“, Werte – Religion – Glaubenskommunikation. Eine Evaluationsstudie zur Erstkommunionkatechese, Wiesbaden 2015.
Fricke, Michael/Riegel, Ulrich, Als wir barfuß über den Boden Gottes laufen konnten. Eine empirische Pilotstudie zum leiblichen Lernen im Religionsunterricht der Grundschule, Göttingen 2011.
Fuchs, Monika E./Wiedemann, Florian, „Ich studiere Theologie, weil …“. Studienmotive, Lernausgangslagen und Konfessionsbezug von Lehramtsstudierenden, Stuttgart 2022.
Gäde, Jana C./Schermelleh-Engel, Karin, Strukturgleichungsmodelle, in: Döring, Nicola (Hg.), Strukturgleichungsmodelle, Berlin/Heidelberg 2023, 923-950.
Gärtner, Claudia, Auferstehungsvorstellungen in Auseinandersetzung mit einem Kunstwerk entwerfen. Fachdidaktische Entwicklungsforschung entfaltet an einem Forschungsprojekt, in: Gärtner, Claudia (Hg.), Religionsdidaktische Entwicklungsforschung, Stuttgart 2017, 31-81.
Gärtner, Claudia/Hans, Anna-Katharina, „Wenn Löwin und Elefant sich unterhalten“. Inkludierende und exkludierende Momente im ästhetischen Lernen, in: Büttner, Gerhard/Mendl, Hans/Reis, Oliver u.a. (Hg.), Heterogenität im Klassenzimmer, Babenhausen 2018, 171-186.
Gennerich, Carsten/Käbisch, David/Woppowa, Jan, Konfessionelle Kooperation und Multiperspektivität. Empirische Einblicke in den Religionsunterricht an Gesamtschulen, Stuttgart 2021.
Gennerich, Carsten/Mokrosch, Reinhold, Religionsunterricht kooperativ. Evaluation des konfessionell-kooperativen Religionsunterrichts in Niedersachsen und Perspektiven für einen religions-kooperativen Religionsunterricht, Stuttgart 2016.
Hattie, John, Visible learning. A synthesis of over 800 meta-analyses relating to achievement, London 2009.
Hermans, Christiaan A. M., Wie werdet ihr die Gleichnisse verstehen? Empirisch-theologische Forschung zur Gleichnisdidaktik, Kampen/Weinheim 1990.
Hill, Burkhard, Die Rekonstruktion von Prozessen kultureller Bildung, in: Eppler, Natalie/Miethe, Ingrid/Schneider, Armin (Hg.), Qualitative und quantitative Wirkungsforschung: Ansätze, Beispiele, Perspektiven, Opladen 2011, 255-270.
Höfler, Nika, Wirksamkeit von Krankenhausseelsorge, in: Wege zum Menschen, Zeitschrift für Seelsorge und Beratung, heilendes und soziales Handeln 72 (2022) 6, 536-547.
Hofmann, Renate, Religionspädagogische Kompetenz. Eine empirisch-explorative Studie zur Evaluation religionspädagogischer Kompetenz von ReligionslehrerInnen, Hamburg 2008.
Hohenschue, Oliver/Riegel, Ulrich/Zimmermann, Mirjam, Heterogeneity in Religious Commitment and Its Predictors, in: Religions 13 (2022) 2, 139. DOI: 10.3390/rel13020139.
Klieme, Eckhard/Rakoczy, Katrin, Empirische Unterrichtsforschung und Fachdidaktik. Outcome-orientierte Messung und Prozessqualität des Unterrichts, in: Zeitschrift für Pädagogik 54 (2008) 2, 222-237.
Komorek, Michael/Prediger, Susanne, Der lange Weg zum Unterrichtsdesign. Zur Begründung und Umsetzung fachdidaktischer Forschungs- und Entwicklungsprogramme, Waxmann 2013.
Kropač, Ulrich, Religiöse Bildung, in: Kropac, Ulrich/Riegel, Ulrich (Hg.), Handbuch Religionsdidaktik, Stuttgart 2021, 17-28.
Kuld, Lothar/Schweitzer, Friedrich/Tzscheetzsch, Werner u.a. (Hg.), Im Religionsunterricht zusammenarbeiten. Evaluation des konfessionell-kooperativen Religionsunterrichts in Baden-Württemberg, Stuttgart 2009.
Langer, Wolfgang, Mehrebenenanalyse mit Querschnittsdaten, in: Wolf, Christof/Best, Henning (Hg.), Handbuch der sozialwissenschaftlichen Datenanalyse, Wiesbaden 2010, 741-774.
Lotz, Miriam/Frank Lipowsky/Gabriele Faust, Dokumentation der Erhebungsinstrumente des Projekts „Persönlichkeits- und Lernentwicklung von Grundschulkindern“ (PERLE). Online unter: https://www.pedocs.de/frontdoor.php?source_opus=17081, abgerufen am 12.10.2023.
Lück, Christhard, Religion studieren. Eine bundesweite empirische Untersuchung zu der Studienzufriedenheit und den Studienmotiven und -belastungen angehender Religionslehrer/innen, Berlin 2012.
May, Henry, Nonequivalent Comparison Group Design, in: Cooper, Harris (Hg.), Research Designs – Quantitative, Qualitative, Neuropsychological, and Biological, Washington, D.C. 2012, 489-509.
McKenney, Susan/Reeves, Thomas C., Conducting Educational Design Research, London/New York 2019.
Mendl, Hans, Lehr- und Lernprozesse analysieren und bewerten – zur Evaluationskompetenz, in: Burrichter, Rita/Grümme, Bernhard/Mendl, Hans u.a. (Hg.), Professionell Religion unterrichten. Ein Arbeitsbuch, Stuttgart 2012, 173-187.
Pirner, Manfred L., Art. Professionsforschung (2015), in: Das wissenschaftlich-religionspädagogische Lexikon im Internet www.wirelex.de, (https://doi.org/10.23768/wirelex.Professionsforschung.100007, PDF vom 20.09.2018).
Plomp, Tjeerd, Educational Design Research. An Introduction, in: Plomp, Tjeerd/Nieveen, Nienke (Hg.), Educational Design Research, Enschede 2013, 10-51.
Pöhler, Birte/Prediger, Susanne, Intertwining Lexical and Conceptual Learning Trajectories – A Design Research Study on Dual Macro-Scaffolding towards Percentages, in: EURASIA Journal of Mathematics, Science and Technology Education 11 (2015) 6 DOI: 10.12973/ andomi.2015.1497a.
Polutta, Andreas, Wirkungsorientierte Transformation der Jugendhilfe. Ein neuer Modus der Professionalisierung Sozialer Arbeit?, Wiesbaden 2014.
Praetorius, Anna-Katharina/Klieme, Eckhard/Herbert, Benjamin/Pinger, Petra, Generic Dimensions of Teaching Quality: The German Framework of Three Basic Dimensions, in: ZDM – Mathematics Education 50 (2018) 3, 407-426. DOI: 10.1007/s11858-018-0918-4.
Prediger, Susanne, Design-Research in der gegenstandsspezifischen Professionalisierungsforschung – Ansatz und Einblicke in Vorgehensweisen und Resultate, in: Leuders, Timo/Christophel, Eva/Hemmer, Michael u.a. (Hg.), Fachdidaktische Forschung zur Lehrerbildung, Münster 2019, 11-34.
Prediger, Susanne, Religionsdidaktische Entwicklungsforschung. Kommentar zu Chancen und Grenzen eines Forschungsformats, in: Gärtner, Claudia (Hg.), Religionsdidaktische Entwicklungsforschung, Stuttgart 2017, 165-174.
Prediger, Susanne/Gravemeijer, Koeno/Confrey, Jere, Design Research with a Focus on Learning Processes: An Overview on Achievements and Challenges, in: ZDM – Mathematics Education 47 (2015) 6, 877-891. DOI: 10.1007/s11858-015-0722-3.
Reichardt, Charles S., Nonequivalent Group Design, in: Everitt, Brian S./Howell, David C. (Hg.), Encyclopedia of Statistics in Behavioral Science, Chichester 2005, 321.
Reinecke, Jost/Pöge, Andreas, Strukturgleichungsmodelle, in: Wolf, Christof/Best, Henning (Hg.), Handbuch der sozialwissenschaftlichen Datenanalyse, Wiesbaden 2010, 775-804.
Reinmann, Gabi, Innovation ohne Forschung? Ein Plädoyer für den Design-Based Research-Ansatz in der Lehr-Lernforschung, in: Unterrichtswissenschaft 33 (2005) 1, 52-69.
Riegel, Ulrich/Jumpertz, Sophia/Gronover, Matthias/Brügge-Feldhake, Malte/Hofmann, Julia/Krämer, Maximiliane/Boschki, Reinhold, Das unterrichtliche Angebot zu Standpunktfähigkeit und Perspektivenwechsel. Eine explorative Videostudie, in: Zeitschrift für Pädagogik und Theologie 74 (2022) 3, 341-353.
Riegel, Ulrich/Schweitzer, Friedrich, Konfessionell-kooperativen Religionsunterricht empirisch erforschen. Eine Bilanz zu vorfindlichen Designs, Methoden und Instrumenten, in: Religionspädagogische Beiträge. Journal for Religion in Education 45 (2022) 2, 107-120.
Riegel, Ulrich/Zimmermann, Mirjam, Evaluation des konfessionell-kooperativen Religionsunterrichts in Nordrhein-Westfalen, Stuttgart 2022.
Riegel, Ulrich/Kindermann, Katharina, Field trips to the church. Theoretical framework, empirical findings, didactic perspectives, Münster/New York 2017.
Ritzer, Georg, ReligionslehrerInnenfortbildung. Eine empirische Studie zu Motivationen, Wünschen und Relevanzen bei über 400 katholischen LehrerInnen, die Religionsunterricht erteilen, in: Österreichisches Religionspädagogisches Forum 26 (2018) 2, 139-154.
Ritzer, Georg, Interesse – Wissen – Toleranz – Sinn. Ausgewählte Kompetenzbereiche und deren Vermittlung im Religionsunterricht; eine Längsschnittstudie, Wien/Berlin/Münster 2010.
Rothgangel, Martin, ReligionslehrerInnen im Horizont jüngerer empirischer Studien, in: Österreichisches Religionspädagogisches Forum (2015) 23, 101-109.
Schwarz, B./Wienert, J./Bethge, M., Implementierungsstudien als notwendige Bedingung aussagekräftiger RCTs, in: Das Gesundheitswesen 77 (2015) 08/09, A203. DOI: 10.1055/s-0035-1563159.
Schwarzkopf, Theresa, Vielfältigkeit denken. Wie Schülerinnen und Schüler im Religionsunterricht argumentieren lernen, Stuttgart 2016.
Schweitzer, Friedrich, Wirksamkeitsforschung in der Religionsdidaktik: Ziele, Forschungsfelder und die Frage nach religionsdidaktischen Forschungsformaten, in: Theo-Web. Zeitschrift für Religionspädagogik 19 (2020) 1, 85-98.
Schweitzer, Friedrich, Religionsunterricht erforschen: Aufgaben und Möglichkeiten empirisch-religionsdidaktischer Forschung, in: Zeitschrift für Pädagogik und Theologie 60 (2008) 1, 59-73. DOI: 10.1515/zpt-2008-0107.
Schweitzer, Friedrich, Religionspädagogik, Lehrbuch praktische Theologie, Gütersloh 2006.
Schweitzer, Friedrich/Biesinger, Albert, Gemeinsamkeiten stärken – Unterschieden gerecht werden. Erfahrungen und Perspektiven zum konfessionell-kooperativen Religionsunterricht, Gütersloh/Freiburg i. Br. 2002.
Schweitzer, Friedrich/Rutkowski, Mirjam (Hg.), Fortbildung für den Religionsunterricht. Theoretische Analysen und empirische Befunde zum evangelischen RU, Münster 2022.
Schweitzer, Friedrich/Bräuer, Magda/Boschki, Reinhold (Hg.), Interreligiöses Lernen durch Perspektivenübernahme. Eine empirische Untersuchung religionsdidaktischer Ansätze, Münster/New York 2017.
Schweitzer, Friedrich/Ilg, Wolfgang/Simojoki, Henrik (Hg.), Confirmation work in Europe: empirical results, experiences and challenges. A comparative study in seven countries, Gütersloh 2010.
Scriven, Michael, Evaluation Thesaurus, Newbury Park, Calif. 1991.
Sibbald, Bonnie/Roland, Martin, Understanding Controlled Trials. Why Are Randomized Controlled Trials Important?, in: British Medical Journal 316 (1998) 7126, 201. DOI: 10.1136/bmj.316.7126.201.
Singal, Amit G./Higgins, Peter D. R./Waljee, Akbar K., A Primer on Effectiveness and Efficacy Trials, in: Clinical and Translational Gastroenterology 5 (2014) 1, e45. DOI: 10.1038/ctg.2013.13.
Sterkens, Carl, Interreligious Learning. The Problem of Interreligious Dialogue in Primary Education, Leiden 2001.
Strumann, Barbara, In Psalmen der Gewalt begegnen, Gütersloh 2017.
Unser, Alexander, Social Inequality and Interreligious Learning. An Empirical Analysis of Students’ Agency to Cope with Interreligious Learning Tasks, Münster 2019.
van der Zee, Theo, Religious Ideas, Feelings and Their Interrelationship. Research into the Effects of Religious Education in Parables on 10- to 12-Year-Olds, Berlin/Münster 2007.
Wagensommer, Georg/Schweitzer, Friedrich, Wertebildung im Religionsunterricht. Eine empirische Untersuchung im berufsbildenden Bereich, Münster 2012.
Wieser, Renate, Den Sinn der Schriften eröffnen: Lk 24 als gemeinsame Herausforderung für Exegese und Fachdidaktik – eine Projektskizze, in: Österreichisches Religionspädagogisches Forum 25 (2017) 2, 109-119.
Winkler, Michael, Kritik der Pädagogik. Der Sinn der Erziehung, Stuttgart 2006.
Wolf, Christof/Best, Henning (Hg.), Handbuch der sozialwissenschaftlichen Datenanalyse, Wiesbaden 2010.

Abbildungsverzeichnis

Abb. 1: heuristisches Grundmodell der Wirksamkeitsforschung.

PDF-Archiv

Alle Fassungen dieses Artikels ab Oktober 2017 als PDF-Archiv zum Download:

Folgt!

Bibelübersetzungen

Lutherbibel

BasisBibel

Gute Nachricht Bibel

Weitere Bibelübersetzungen

Wissenschaftliche Ausgaben

Hilfen zum Bibellesen

Bibellesepläne

Tipps zum Bibellesen

Hilfsmittel für die Bibellektüre

Abkürzungen der Bibel

Wissen zur Bibel

Textüberlieferung

Kanon

Aufbau der Bibel

Inhalt der Bibel

Zentrale Bibeltexte

FAQ zur Bibel

Bibel im Einsatz

Bibel im Alltag

Bibel im Kirchenjahr

Bibel in der Gemeinde

Bibel für Kinder

Bibel für Jugendliche

Bibel in der Schule

Bibel im Studium und in der Lehre

Unsere Partner

Regionale Bibelgesellschaften

Badische Landesbibelgesellschaft

Ostfriesische Bibelgesellschaft

Württembergische Bibelgesellschaft

Weltverband der Bibelgesellschaften (UBS)

Biblische Exegese

WiBiLex - das Bibellexikon

Bibelkunde

Bibel in der Kunst

Religionspädagogik

WiReLex - das religionspädagogische Lexikon

Exegese für die Religionspädagogik

Online-Bibelkommentar (OBK)

Bibel im Religionsunterricht

Gemeindepraxis

Exegese für die Predigt

Bibeltextomat

Bibel auf der Gemeindewebseite

Flüchtlingsarbeit

Unsere Ausgaben

Wissenschaftliche Ausgaben

Deutsche Bibelübersetzungen

Weltbibelhilfe

Jetzt spenden (weltweit)

Bibelprojekte weltweit

Zahlen und Fakten

Aktuelles & Einblicke

Über die Weltbibelhilfe

Bibelprojekte in Deutschland

Jetzt spenden (national)

Bibelprojekte deutschlandweit

Über die Arbeit in Deutschland

Unterstützen und verbreiten

Verteilmaterial

Gebetsrundbrief

Ihre Spendenaktion

Vorsorgen und Vererben

Die Bibel für …

Menschen in ihrer Muttersprache

Kinder weltweit

Menschen, die nicht lesen können

Menschen, die in Bedrängnis sind

Menschen mit Beeinträchtigungen

Studium und Gemeinde weltweit

Förderkreis

Was ist der Förderkreis?

Fördermitglied werden