Um die Nützlichkeit projektiver Verfahren als tatsächliche Testverfahren beurteilen zu können, sollte zunächst ein Blick auf die empirische Fundierung der bekanntesten und am meisten genutzten projektiven Verfahren geworfen werden. International werden der Rorschach-Test (Rorschach
1921) und der Thematische Apperzeptionstest (TAT; Morgan und Murray
1935) häufig eingesetzt (Archer et al.
2006; Lubin et al.
1984; Piotrowski
2015; Watkins et al.
1995). Im deutschsprachigen Raum handelt es sich bei den beliebtesten Verfahren meist um zeichnerische, verbal-thematische Verfahren oder auch spielerische Gestaltungsverfahren, wie z. B. den Scenotest von Staabs (
1964), Familie in Tieren von Brem-Gräser (
2011) oder Die verzauberte Familie von Kos und Biermann (
2017). In der Familienrechtspsychologie werden v. a. zeichnerische sowie sogenannte apperzeptive Verfahren genutzt (Salewski und Stürmer
2015), weshalb im Folgenden auf diesen beiden Arten von Verfahren genauer eingegangen wird.
Der Thematische Apperzeptionstest
Ein klassisches projektives Verfahren ist der TAT nach Morgan und Murray (
1935), der in der aktuellen Forschung häufig unter dem Namen Picture Story Exercise (PSE) von McClelland et al. (
1989) mit dem Kodiersystem von Winter (
1994) verwendet wird (deutsche Version von Schultheiss
2008). Der TAT nach Morgan und Murray (
1935) setzt sich aus insgesamt 31 Tafeln zusammen, welche mehrdeutige Darstellungen überwiegend alltäglicher Situationen zeigen und zu denen der*die Proband*in eine möglichst dramatische Geschichte erzählen soll. Das Verfahren wird primär zur Persönlichkeits- und zur Motivdiagnostik genutzt.
Die empirischen Befunde zu diesen Verfahren sind wenig vielversprechend, wie eine umfassende Metaanalyse von Lilienfeld et al. (
2000) zeigte. Ein großes Problem bei der Untersuchung des TAT besteht in der uneinheitlichen Nutzung des Verfahrens. Wird jedoch ein standardisiertes Scoring-System verwendet, wie das System nach McClelland et al. (
1953), die Social Cognition and Object Relations Scale (SCORS) nach Westen et al. (
1990) oder das Defense Mechanism Manual (DMM) von Cramer (
1991) lassen sich durchaus akzeptable bis hohe Interrater-Reliabilitäten erreichen (ca. .90 für das SCORS sowie .64–.81 für das DMM). Die internen Konsistenzen oder Test-Retest-Reliabilitätskoeffizienten sind jedoch selbst bei Nutzung dieser standardisierten Systeme eher niedrig (.59–.77 für die internen Konsistenzen des SCORS, .57–.83 für die internen Konsistenzen des DMM, .07–.46 für die Test-Retest-Reliabilität des DMM; zur Test-Retest-Reliabilität des SCORS existieren keine Angaben). Ein weiteres Problem sind fehlende Normen. Die Befundlage zur Validität des TAT ist heterogen, und die meisten Zusammenhänge sind nicht konsistent repliziert worden. Für die SCORS konnten jedoch einige Belege für die Konstruktvalidität erbracht werden. So zeigten sich z. B. in mehreren Studien Zusammenhänge mit der Borderline-Persönlichkeitsstörung (für eine Übersicht all dieser Befunde: Lilienfeld et al.
2000).
Diese Befunde verlieren allerdings an Bedeutung, da nur die wenigsten Praktiker*innen das standardisierte Kodierschema SCORS tatsächlich nutzen. Die Auswahl, Reihenfolge und Anzahl der Karten variieren über verschiedene Anwender*innen hinweg erheblich. Selbst in den einzelnen Studien ist dies der Fall (Groth-Marnat
1997; Pinkerman et al.
1993; Worchel und Dupree
1990). Diese Variationen machen eine allgemeine Aussage über die empirische Fundierung des TAT unmöglich. Solange dieses Problem besteht, bringt auch jede weitere Studie kaum Erkenntnisgewinn im Hinblick auf die allgemeine Frage der Validität.
Die Nützlichkeit des TAT zur Beantwortung familienrechtspsychologischer Fragestellungen ist allein schon vor dem Hintergrund fehlender Normwerte in Zweifel zu ziehen. Angesichts der sehr heterogenen Verwendungsweisen gibt es außerdem keine konsistente Studienlage, die einen Mehrwert der Anwendung des Verfahrens belegen würde. Von einer rein intuitiven Handhabung ist im Begutachtungskontext aufgrund fehlender Nachvollziehbarkeit eindeutig abzuraten. Dessen ungeachtet erfolgen seine Anwendung und Interpretation in den meisten Bereichen der Praxis erfahrungsgemäß ausschließlich auf Grundlage klinischer Intuition und eben nicht unter Nutzung standardisierter Kodiersysteme.
Zeichnerische Verfahren
Bei den zeichnerischen Verfahren ist die wissenschaftliche Fundierung als noch schwächer zu bewerten. Lilienfeld et al. (
2000) beleuchten in ihrer Metaanalyse auch den wissenschaftlichen Status von Menschzeichnungsverfahren und unterscheiden hierbei zunächst zwischen zwei Ansätzen der Interpretation: dem globalen Interpretationsansatz nach Koppitz (
1968), bei dem mehrere Indikatoren zu einem Gesamtwert zusammengefasst werden, und dem symbolischen Ansatz nach Machover (
1949), bei dem nur einzelne, losgelöste Merkmale der Zeichnung interpretiert werden. Während der globale Ansatz hinsichtlich der Untersuchung von Psychopathologie noch vielversprechend scheint (wobei die Befunde dazu nicht eindeutig sind und noch weitere Studien benötigt werden), kommen Lilienfeld et al. (
2000) jedoch hinsichtlich des Ansatzes nach Machover (
1949) zu dem Schluss, dass die überwältigende Mehrheit der Symbole oder Zeichen, die in Menschzeichnungen interpretiert werden, unerhebliche oder gar keine Validität besitzen und es keine replizierten Befunde gibt, die systematische Beziehungen zwischen bestimmten Zeichenmerkmalen und Persönlichkeitseigenschaften oder psychischen Störungen aufzeigen. Lediglich mit künstlerischen Fähigkeiten oder Intelligenz wurden moderate Zusammenhänge gefunden (Kahill
1984; Motta et al.
1993). Darüber hinaus existierten keine Studien, die belegen, dass Menschzeichnungen psychologisch relevante Informationen über andere klinische Verfahren oder Informationen hinaus liefern, es gibt also keine Belege für inkrementelle Validität.
Speziell für den familienrechtspsychologischen Kontext sind die Ergebnisse zweier weiterer Studien aus dem deutschsprachigen Raum relevant. Ko (
2004) untersuchte anhand einer Stichprobe von 344 deutschen Kindern und Jugendlichen im Alter von 4 bis 18 Jahren den Zusammenhang zwischen Merkmalen von Kinderzeichnungen im Zeichne-Einen-Mensch-Test (ZEM) von Koppitz und Kende (
1972) und Lebens- sowie Verhaltensauffälligkeiten der Kinder, gemessen mit der Child Behavior Checklist (CBCL) von Döpfner et al. (
1994b) und dem Youth Self-Report (YSR) von Döpfner et al. (
1994a). Es konnte kein Zusammenhang zwischen den Analyseergebnissen des ZEM und den Summenscores und Syndromskalen des jeweiligen Kindes im CBCL bzw. YSR festgestellt werden. Keines der untersuchten Merkmale im ZEM trennte laut Ko (
2004) zwischen psychisch auffälligen und psychisch unauffälligen Kindern.
Zumbach und Koglin (
2016) untersuchten die Zusammenhänge von elterlichem Erziehungsverhalten, Belastungen und Verhaltensauffälligkeiten von 4‑ bis 6‑jährigen Kindern mit den Eigenschaften ihrer Familienzeichnungen. Es wurden 102 Familienzeichnungen einbezogen. Unter Kontrolle der Gesamtzahl der Figuren je Bild zeigte sich nach Berechnung von über 100 Korrelationskoeffizienten lediglich ein signifikanter Zusammenhang zwischen der von den Eltern berichteten Selbstständigkeit in der Erziehung und der Breite der Mutterfigur in der Familienzeichnung. Dies liegt deutlich unter der per Zufall erwarteten Anzahl von signifikanten Korrelationen.
In Gruppenvergleichen zeichneten sich Kinder ohne Geschwister außerdem signifikant breiter und häufiger zwischen die Eltern als Kinder mit Geschwistern, wobei dies laut den Autor*innen vermutlich auf den pro Familienmitglied vorhandenen Platz zum Zeichnen zurückzuführen war. In Bezug auf den Vater zeichneten 28,6 % der Kinder getrennt lebender Eltern ihren Vater nicht auf das Bild, bei den Kindern nicht getrennt lebender Eltern taten dies nur 7,6 %. Über diese Prozentangaben hinaus konnten keine weiteren Zusammenhänge zwischen den Merkmalen der Zeichnungen und diagnostisch relevanten Variablen, wie z. B. elterlichem Belastungsempfinden sowie von den Eltern berichteten Verhaltensweisen der Kinder, gefunden werden. Zumbach und Koglin (
2016) raten aufgrund ihrer Ergebnisse von einer interpretativen Nutzung von Familienzeichnungen in der Begutachtung oder im klinischen Kontext ab.
Vor dem Hintergrund der ernüchternden Befunde ist dies nachvollziehbar. Die einzigen konsistent replizierten Zusammenhänge mit künstlerischen Fähigkeiten und Intelligenz sind für den familienrechtspsychologischen Kontext inhaltlich selten von Bedeutung. Dass sich außerdem ganz grundlegende Probleme bei zeichnerischen Verfahren ergeben, zeigt auch noch einmal sehr eindrücklich eine Studie von Kubinger et al. (
2003). Basierend auf einer Stichprobe von 756 Kindern im Alter zwischen 6 und 12 Jahren wurde die Reliabilität des Verfahrens Familie in Tieren untersucht. Die Kinder fertigten zu 2 Messzeitpunkten insgesamt 4 Zeichnungen an. Zwei Zeichnungen erfolgten dabei immer unmittelbar nacheinander zum selben Messzeitpunkt. Zur Untersuchung der Test-Retest-Reliabilität wurde der Zusammenhang der direkt nacheinander angefertigten Zeichnungen berechnet; zur Untersuchung der Stabilität der Zusammenhang zwischen den Zeichnungen des ersten Messzeitpunkts und denen des zweiten Messzeitpunkts. Es zeigten sich keinerlei signifikante Zusammenhänge zwischen den kodierten Merkmalen der 4 Zeichnungen. Darüber hinaus zeigten sich kaum Übereinstimmungen zwischen den Beurteiler*innen, die dazu aufgefordert worden waren, auf Grundlage der Zeichnungen Hypothesen zu generieren.
Dass selbst unmittelbar nacheinander angefertigte Zeichnungen der Kinder in keinem feststellbaren Zusammenhang zueinanderstehen und Beurteiler*innen der Zeichnungen zu keinen übereinstimmenden Ergebnissen gelangten, deckt einen Mangel auf, der auch in der familienrechtspsychologischen Diagnostik von erheblicher Bedeutung ist. Denkt man an die grundlegenden Qualitätskriterien, ist der Nutzen eines Testverfahrens, dessen Ergebnis nicht ansatzweise replizierbar ist, eindeutig infrage zu stellen. Angesichts dieser Befunde kommen auch Baumgärtel und Thomas-Langel (
2014) in ihrer Rezension zu Familie in Tieren zu einem vernichtenden Urteil: Aufgrund von Mängeln hinsichtlich der theoretischen Grundlagen, der Normierung, Objektivität, Reliabilität und Validität sei davon abzuraten, „aufgrund eines bestimmten Testergebnisses eine bestimmte Entscheidung über das Kind und für seine Eltern oder andere Instanzen zu treffen“ (S. 153).
Die Kritik an den psychometrischen Gütekriterien
Auf Grundlage der hier dargestellten Empirie wäre Sachverständigen von der „klassischen“ Anwendungsart des TAT und zeichnerischer Verfahren in der familienrechtspsychologischen Diagnostik abzuraten. Möglicherweise sollte sogar auf den klassischen Einsatz der allermeisten projektiven Verfahren verzichtet werden – zur Verdeutlichung sei hierfür zuletzt exemplarisch auf das Verfahren hingewiesen, welches empirisch am besten untersucht ist: der Rorschach-Test in Kombination mit dem strukturierten Auswertungssystem Comprehensive System (CS) von Exner (
1974).
Denn selbst dieser Test weist hinsichtlich der psychometrischen Gütekriterien erhebliche Mängel auf. Gegenstand der Kritik sind v. a. fehlerhafte Normen mit Dubletten in der Normstichprobe (Exner
2001; Grove et al.
2002; Meyer et al.
2007; Shaffer et al.
1999; Wood et al.
2001) sowie von Exner zitierte Studien zur empirischen Fundierung, von denen sich herausstellte, dass die meisten nie einem Peer-Review unterzogen, nie publiziert oder sogar nie geschrieben worden waren (Grove et al.
2002; Wood et al.
1996a, b). Allerdings zeigen neuere Metaanalysen zumindest, dass einige Indizes des Rorschach-Tests valide sind, die Validität 4 weiterer Rorschach-Scores wird außerdem derzeit noch kontrovers diskutiert (Hunsley et al.
2015; Lilienfeld et al.
2000; Mihura et al.
2013,
2015; Wood et al.
2015).
Dies klingt zunächst zumindest für den Rorschach-Test vielversprechend. Zu beachten ist dabei jedoch, dass es sich bei diesen validen Indizes primär um Variablen handelt, die kognitive Prozesse oder Wahrnehmungsprozesse messen. Aus den empirischen Befunden ergibt sich somit zugleich, dass der Rorschach-Test ironischerweise gerade für die Persönlichkeitsdiagnostik ungeeignet ist und, wenn überhaupt, eher im Rahmen einer Intelligenzdiagnostik oder der Diagnostik von z. B. Schizophrenie zu verwenden wäre (Dao et al.
2008; Garb
1984). Grund dafür ist vermutlich, dass der Rorschach hier als Verhaltensprobe kognitiver Fähigkeiten fungiert, da das Testverhalten das zu messende Konstrukt in Form einer „Sprachprobe“ direkt abbildet (Wood et al.
2000). Die vermeintlich projektive Natur des Verfahrens kommt bei dieser Verwendung also gar nicht zum Tragen. Gleiches lässt sich auf die wenigen Bereiche übertragen, in denen Menschzeichnungsverfahren bisher Validität zeigten, nämlich wenn es um die Erfassung von Intelligenz oder künstlerischen Fähigkeiten geht. Trotz dieser ernüchternden Befunde zur empirischen Fundierung kommen projektive Verfahren jedoch in der Praxis nach Erfahrung der Autor*innen weiterhin auch als klassisch projektives Verfahren zum Einsatz. Festzustellen ist demnach eine starke Diskrepanz zwischen der empirischen Befundlage und der Verwendung im Feld. Wie lässt sich diese Diskrepanz erklären?
In den letzten Jahren werden von Befürworter*innen projektiver Verfahren vermehrt Bedenken hinsichtlich der grundsätzlichen Anwendbarkeit der Gütekriterien geäußert (z. B. Wienand
2016; Wittkowski
2011). In der deutschsprachigen Literatur behandelt v. a. Wittkowski (
2011) in einem prominent in der
Enzyklopädie der Psychologie publizierten Kapitel zu projektiven Verfahren die Problematik von Gütekriterien, primär bezogen auf zeichnerische Verfahren sowie den TAT. Er kommt in seiner Kritik zu dem Schluss, dass die klassischen, psychometrischen Gütekriterien sowohl für den TAT als auch für zeichnerische und spielerische projektive Verfahren nicht anwendbar seien. Im Folgenden soll auf die wichtigsten Argumente eingegangen werden.
Laut Wittkowski (
2011) sei beim TAT sowie bei zeichnerischen Verfahren eine sinnvolle Berechnung der meisten Validitäts- und Reliabilitätskoeffizienten – mit Ausnahme der Auswerter*innen-Übereinstimmung – gar nicht möglich. So ergebe sich beispielsweise bei der Test-Retest-Reliabilität das Problem, dass diese sich nur für konstante Merkmale eigne. Die Stabilität der erfassten Merkmale sei jedoch umstritten, v. a. im Hinblick auf die Messung von Motiven mit dem TAT, aber auch bei zeichnerischen Verfahren aufgrund zufälliger Einflüsse oder aufgrund der momentanen Stimmungslage des*der Proband*in (Wittkowski
2011). Dieses Argument ist nachvollziehbar, denn bei zeitlich instabilen Merkmalen ist tatsächlich keine hohe Test-Retest-Reliabilität zu erwarten, und ein entsprechender Koeffizient ist nicht sinnvoll interpretierbar. Fraglich ist dann allerdings auch, welchen diagnostischen Wert die Erfassung instabiler Merkmale bieten soll. An sich lässt sich dieses Problem aber einfach umgehen: Bei Annahme zeitlicher Instabilität eines Merkmals empfiehlt sich hier z. B. die Berechnung konsistenzbasierter Reliabilitätskoeffizienten. Einleuchtend ist auch die Aussage, dass die Bestimmung der Validität von projektiven Verfahren vor Probleme gestellt sei, wenn sie mittels Korrelationen mit Fragebogenverfahren untersucht wird. Wenn die These zutrifft, dass projektive Verfahren und Selbstberichtsmaße ganz unterschiedliche Merkmalsanteile erfassen (z. B. McClelland
1980), erscheinen diese Validierungskriterien nicht geeignet. Allerdings ist diese These umstrittenen (für eine Zusammenfassung hierzu: Lilienfeld et al.
2000). Um dieses Problem zu lösen, sollten also zur Validierung andere Kriterien verwendet werden, wie z. B. objektive Verhaltensmerkmale.
Während die ersten beiden Argumente nachvollziehbar sind, erscheinen andere von Wittkowski (
2011) vorgebrachte Argumente problematisch. So schildert er beispielsweise, dass auch die Berechnung anderer Reliabilitätskoeffizienten, wie die der internen Konsistenz oder der Split-Half-Reliabilität, beim TAT nicht gefordert werden könne; denn, um hier hohe Konsistenzen zu erreichen, sei es Voraussetzung, dass die Testitems parallel sind, d. h., dass die einzelnen eingesetzten Tafeln des TAT das Gleiche erfassen. Die Tafeln des TAT seien jedoch mit Absicht möglichst heterogen gestaltet (Cramer
1996,
1999), was das Erreichen hoher Koeffizienten an dieser Stelle von vornherein verhindere. Wittkowski (
2011) führt hierbei den von Lundy (
1985) vorgenommenen Vergleich einer Vorhersage durch TAT-Tafeln mit einer multiplen Regressionsanalyse an. Die Tafeln des TAT werden hierbei mit verschiedenen Prädiktoren einer Regressionsgleichung gleichgesetzt, welche alle einen
spezifischen, eigenen Vorhersagebeitrag in Bezug auf das Merkmal leisten. Deshalb seien die Tafeln untereinander unkorreliert. Das geringe Cronbachs α der Tafeln sei also sogar eine methodische Stärke des Verfahrens. Das ist zwar theoretisch möglich, dieses Argument ist aber aus den folgenden zwei Gründen problematisch: Zum einen steht die Behauptung, es handle sich bei den einzelnen TAT-Tafeln um distinkte, voneinander unabhängige Prädiktoren, im Widerspruch zum Vorschlag vieler TAT-Auswertungssysteme, die zu den verschiedenen Karten produzierten Narrative auf Gemeinsamkeiten wie wiederkehrende Themen, Motive, Handlungskontexte oder allgemein Wiederholungen zu prüfen. Zum anderen würde diese Sichtweise laut Tuerlinckx et al. (
2002) das Problem des Nachweises von Reliabilität lediglich auf eine andere Ebene verschieben. Anstelle der Reliabilität des gesamten Verfahrens müsste nun die Reliabilität der Kodierung einzelner Tafeln nachgewiesen werden. Zutreffend ist die Aussage von Wittkowski (
2011), dass eine relativ hohe Validität auch bei geringer interner Konsistenz der Tafeln oder Items gegeben sein kann. Hiermit nimmt er Bezug auf die häufig geäußerte Kritik, eine hohe Validität sei schon allein aufgrund geringer Reliabilität nicht möglich. Man versucht jedoch z. B. auch bei aktuarischen, kriminalprognostischen Instrumenten durch die Kombination möglichst unkorrelierter Prädiktoren eine maximale Vorhersage des Rückfallkriteriums zu erreichen, was empirisch auch gelingt (Helmus und Babchishin
2017). Das Argument bleibt aber für projektive Verfahren auf einer rein theoretischen Ebene und dient hier eher als Immunisierungsstrategie. Denn eine niedrige Reliabilität ist nur dann akzeptabel, wenn eine substanzielle Validität tatsächlich empirisch nachgewiesen wird, denn eine niedrige Reliabilität allein kann sicher nicht als Nachweis für eine hohe Validität dienen. Ein empirischer Nachweis, dass die einzelnen Tafeln des TAT tatsächlich einen eigenständigen oder auch gemeinsamen substanziellen Vorhersagebeitrag leisten, steht jedoch aus.
Spezifisch zu zeichnerischen Verfahren führt Wittkowski (
2011) außerdem aus: „Als Verfahren, die vom Probanden Entfaltung verlangen, wird – bei Auswertung auf der Merkmalsebene – das ‚Item‘ erst im Nachhinein und für jeden Einzelfall gesondert bestimmt“ (S. 351) sowie „Anders als bei Persönlichkeitsfragebögen (z. B. zur Erfassung von Lebenszufriedenheit, Aggressivität, Einstellungen zu Sterben und Tod) handelt es sich bei den Merkmalen, die zeichnerische Gestaltungsverfahren anzielen, nicht um Konstrukte mit einer mehr oder weniger klar umschriebenen mehrdimensionalen Struktur. So geht es um die Einschätzung eines (globalen) kognitiven Entwicklungsstands, nicht aber um die Abbildung eines bestimmten Intelligenzmodells“ (S. 352 f.). Dieses Argument kann von uns nur so verstanden werden, dass es insbesondere bei zeichnerischen Verfahren weder im Vorhinein bestimmbare zu kodierende Items noch Konstrukte gibt, die es zu messen gilt, und dass damit der Anspruch eines diagnostischen Verfahrens aufgegeben wird.
Wittkowski (
2011) bringt zuletzt noch zwei weitere Argumente für die Unangemessenheit psychometrischer Gütekriterien zur Beurteilung des TAT vor, die bei genauerer Betrachtung jedoch grundlegende Probleme des TAT verdeutlichen und ebenso gut als Argumente
gegen die Nutzung des TAT in der Praxis verwendet werden könnten. Erstens verweist Wittkowski (
2011) bei der Begründung für niedrige Test-Retest-Reliabilitäten des TAT auf Fleming (
1982). Demnach seien wiederholte TAT-Durchführungen nicht sinnvoll, weil Proband*innen bei einer zweiten Durchführung möglicherweise absichtlich eine andere Geschichte erzählten. Der auch „Sättigung“ genannte Effekt ist auch der Grund dafür, warum man die Reliabilität des TAT nicht einfach durch eine Testverlängerung durch Hinzunahme weiterer Tafeln verbessern kann wie bei anderen Tests (Asendorpf
2007). Der Sättigungseffekt impliziert auch, dass der TAT in einem bestimmten Zeitraum genau
einmal und nicht wiederholt durchführt werden kann.
Zweitens verweist Wittkowski (
2011) bei der Begründung für niedrige interne Konsistenzen des TAT auf die Befunde von Tuerlinckx et al. (
2002) zur Stochastic Drop-Out Apperception Theory, die zeigen, dass Probanden im TAT ab und an Geschichten erzählen, die von der Motivstärke gar nicht beeinflusst werden und die damit keinerlei diagnostischen Wert besitzen. Beide Phänomene seien der Grund für eine geringe Korrelation zwischen den Geschichten. Daher sei es unangemessen, beim TAT die Ermittlung der Reliabilität psychometrisch zu fordern (Wittkowski
2011). Mit anderen Worten: Dass einzelne Tafeln des TAT und bei einer Wiederholung der ganze Test manchmal nicht messen, was sie eigentlich messen sollen (also nicht valide sind), ist an dieser Stelle die Begründung dafür, dass keine hohe Konsistenz oder Retest-Reliabilität erwartet werden kann. Zur Verdeutlichung der Implikationen dieses Arguments ist es an dieser Stelle hilfreich, sich als Analogie einen IQ-Test vorzustellen, bei dem eine geringe Inter-Item-Korrelation damit begründet würde, dass einzelne Items nur manchmal den IQ mäßen. Aus den Befunden von Tuerlinckx et al. (
2002) ergibt sich damit ein gravierendes Problem im Umgang mit dem TAT, mit welchem Praktiker*innen konfrontiert sind und welches von den Autor*innen auch selbst angesprochen wird: Für den*die Untersucher*in ist es unmöglich, im Einzelfall bei einem*einer Proband*in festzustellen, ob die erzählte Geschichte nun diagnostischen Wert besitzt oder nicht. Überträgt man dieses Problem auf den Begutachtungskontext, wird einem schnell die Tragweite dieses Mangels bewusst.
Trotzdem erscheint es aufgrund dieser Argumente theoretisch möglich, dass der TAT trotz geringer Reliabilität eine hinreichende Validität aufweisen könnte. Bloße Zweifel an der Anwendbarkeit der klassischen Testtheorie allein entbinden jedoch nicht von der Verpflichtung, die diagnostische Brauchbarkeit eines Verfahrens, d. h. belastbare empirische Evidenz für seine Validität, auch nachzuweisen. Oft scheinen diese psychometrischen Argumente nur als Rechtfertigungs- und Immunisierungsstrategien zu dienen, welche zur Aufrechterhaltung des Problems anstatt zu seiner Lösung beitragen. Grundsätzlich ist es nämlich möglich, auch bei projektiven Verfahren empirische Belege für ihre Validität zu erbringen. Als Positivbeispiele können an dieser Stelle v. a. der Picture Frustration Test (PFT) von Rosenzweig et al. (
1947) zur Erfassung von Frustrationstoleranz oder der Washington University Sentence Completion Test (WUSCT) von Loevinger (
1976) zur Erfassung der Ich-Entwicklung angeführt werden, welche als gut validierte Verfahren gelten (für einen Auflistung der verschiedenen Befunde bzw. Reviews: Lilienfeld
1999; Lilienfeld et al.
2000). Zum PFT existieren z. B. sogar deutsche Normen für eine Stichprobe forensisch begutachteter Straftäter*innen. Das Verfahren zeigte in dieser Stichprobe außerdem signifikante, positive Zusammenhänge mit einem nichtprojektiven Verfahren zur Messung aggressiver Tendenzen (Köthe et al.
2020). Ebenfalls positiv zu erwähnen ist aus dem deutschen Sprachraum der partnerschaftsbezogene Agency- and Communion-Test (PACT) von Hagemeyer und Neyer (
2012).
Auch mit der Sorge- und Umgangsrechtlichen Testbatterie (SURT) von Hommers (
2009) existiert ein Verfahren für den familienrechtspsychologischen Bereich, bei dem Anstrengungen zur Validierung unternommen wurden und bei dem darüber hinaus neben einer Normalpopulation auch eine Stichprobe mit Kindern aus begutachteten Familien (
n = 97) in die Normierungs- und Validierungsstudien eingeflossen ist. Neben dem nichtprojektiven Untertest Eltern-Wahrnehmungs-Unterschiede (EWU) zeigten auch der semiprojektive Untertest Semi-Projektive Entscheidungsfragen (SPEF) und einzelne Subskalen des projektiven Untertests Projektiver Familien-Szenen-Test (PFST) signifikante, positive Zusammenhänge mit dem Family Relations Test (FRT-R) von Hommers (
2001) und dem Familien-Identifikations-Test (FIT) von Remschmidt und Mattejat (
1999). Es wird aber auch hier im Manual argumentiert, dass die vorliegenden, geringen Korrelationen der Untertests der SURT untereinander dafür sprächen, dass jeder Test spezifische Varianzanteile messe und somit inkrementellen Informationswert biete (Hommers
2009). Diese Behauptung müsste allerdings in Bezug auf ein relevantes Kriterium empirisch belegt werden. Dass die Korrelationen niedrig sind, stellt für die Annahme der inkrementellen Validität der Testbatterie ein notwendiges, aber kein hinreichendes Kriterium dar.