top of page

PSICOLOGÍA Y NEUROCIENCIA

  • Instagram
  • Facebook
  • Twitter
  • LinkedIn
  • YouTube
  • TikTok
CONTENIDO DE LA UNIDAD
  • Material de estudio

  • Imágenes

  • Actividades de aprendizaje

ESTRATEGIAS PARA LA DETECCIÓN DE LA SIMULACIÓN Y LA DEFENSIVIDAD

OBJETIVOS

​

  • En este apartado se presentan estrategias de detección y se provee un marco conceptual para entender su desarrollo y validación. Bajo este contexto, cinco criterios esenciales de detección serán examinados.

  • La segunda gran sección provee una reseña de las estrategias de detección y cómo son utilizadas con estilos de respuesta específicos.

  • De manera breve se abordan las conjeturas de las probabilidades pos-pruebas.

INTRODUCCIÓN

​La edad moderna de la evaluación sistemática de los estilos de respuesta fue anunciada por el desarrollo empírico del Inventario Multifásico de Personalidad de Minnesota (MMPI; Hathaway y McKinley, 1940). Los esfuerzos originarios del MMPI confiaban en discriminar reactivos que no eran característicos de poblaciones normativas. La construcción más simple fue la escala F que, sólo, depende de los reactivos MMPI ratificados como poco frecuentes por las pruebas normativas del Minnesota. A diferencia de su uso actual para determinar trastornos mentales fingidos, la intención original de la escala F era medir "descuido y confusión" (Meehl, 1946, p. 517). Sin tener fundamentos conceptuales, las interpretaciones de las elevaciones de la escala F cubren el espectro desde dificultades con la atención, nivel bajo de comprensión lectora hasta interferencia psicótica, incumplimiento hostil y fingimiento deliberado (Dalstrom, et al., 1972).

 

Las primeras versiones del MMPI fueron más allá de los descuidos a evaluar aspectos principales de adaptación simulada, incluyendo deseabilidad social y defensividad . La intención original de la escala L, o escala de mentira, era "identificar esfuerzos intencionados o premeditados para evitar contestar de manera franca y honesta la prueba" (Dalstrom et al., 1972, p. 108). Sin embargo, una inspección más profunda del contenido de los reactivos revela en especial una medida de deseabi-lidad social. Basados en Hartshorne y May (1928), Hathaway y McKinley (1940) diseñaron 15 reactivos que abarcaban la negación de fallas personales y manías. Como evidencia de que estas fallas son ampliamente observadas, por lo regular las pruebas normativas tienen dos terceras partes "verdaderas".

 

La escala K, en comparación con la escala L, evalúa respuestas defensivas (p. ej., negar deterioros psicológicos). Cuando McKinley et al., (1948, p. 20) observaron "perfiles normales" en diagnósticos de pruebas clínicas, supusieron e que esto era "sugerente de una actitud defensiva en las respuestas de los pacientes".

​

¿Qué lecciones se pueden aprender de las escalas de validez del MMPI? Primero, la conceptualización inicial de la detección de estrategias es fundamental para su subsecuente interpretación. La claridad del desarrollo e interpretación de la escala K se puede contrastar fácilmente con las dificultades de interpretación que afronta la escala F, a la cual le faltan fundamentos conceptuales. Segundo, la selección de grupos criterio determina la fidelidad en las interpretaciones posteriores. La escala F puede servir de ejemplo de que las escalas desarrolladas sólo a partir de muestras normativas son esencialmente confusas como medidas para detectar simulación. Sin pruebas clínicas, los especialistas no saben si las elevaciones en los puntajes son resultado de psicopatologías falsas o genuinas.

​

A pesar de sus limitaciones, el MMPI representa la primera etapa crítica en el desarrollo de estrategias de detección empíricas de los estilos de respuesta (Rogers y Gillard, 2011). Antes del MMPI, la mayoría de las valoraciones de simulación y otros estilos de respuesta dependían de métodos no probados basados en estudios de caso. Dos escollos principales pueden surgir fácilmente de apoyarse sólo en estudios de caso. Primero, sin investigaciones sistemáticas, los clínicos, de manera inadvertida, se pueden engranar en un ejercicio tautológico: características "sobresalientes" de simulación son identificadas con simuladores sospechosos que, a su vez, son identificados con base en estas características "sobresalientes" (un ejemplo clásico del sesgo de con-firmación; Borum, et al., 1991). Segundo, las características comunes de simulación se pueden confundir con características discriminantes.

​

A pesar del desarrollo de estrategias de detección empíricas validadas, las cuales se describen más adelante, los rasgos comunes versus las características discriminantes siguen siendo un problema fundamental, especialmente para la valoración de la simulación. Los indicadores filtro de simulación en el DSM,* creados hace más de 25 años (American Psychiatric Association, 1980), continúan usando mal las características comunes de simulación, como si fueran características discriminantes (American Psychia-tric Association, 2013). Aunque se encuentra por lo común a los simuladores en las evaluaciones forenses y éstos tienen antecedentes antisociales, el uso superficial de estos indicadores comunes puede producir errores infor-tunados. En las evaluaciones clínicas forenses, todos los involucrados presentan evaluaciones forenses, muchos de éstos también requieren diagnóstico de trastorno de personalidad antisocial (TPA).

​

Para fines de este capítulo se harán dos simples conjeturas: (1) La frecuencia de simulación es casi de 20% basada en extensas evaluaciones (Rogers, capítulo 1 de este volumen), y (2) la frecuencia del TPA es de 50%. Al llevar a cabo 1000 evaluaciones forenses, 100 de 200 simuladores serían evaluados de forma correcta. Sin embargo, 400 de 800 respondedores auténticos serían clasificados de manera errónea. Errar cuatro veces de cinco es sólo catastrófico. Este ejemplo hipotético se asemeja a los resultados empíricos (Rogers, 1990). Este análisis sencillo demuestra las devastadoras consecuencias de confundir características comunes con características discriminantes.

​

La distinción clave entre características comunes y discriminantes se muestra en las siguientes descripciones:

• Las características comunes, a veces descritas como "correlaciones clínicas", son observadas en las respuestas únicas de los evaluados. Hasta cuando la frecuencia excede a 50%, las correlaciones clínicas comunes no facilitan la clasificación precisa.

• Las características discriminantes se remiten a características clínicas específicas que diferencian de forma fiable entre grupos relevantes. Pueden propiciar una clasificación precisa.

​

El ejemplo anterior sobre TPA y simulación en la evaluación clínica forense demuestra con claridad por qué las características comunes no deberían ser usadas en clasificaciones precisas. Además, la mayoría de las correlaciones clínicas son relativamente modestas (p. ej., rs <40), lo cual disminuye marcadamente su uso práctico.

​

Aun cuando las correlaciones son altas (p. ej., rs > .70), no ayudan a clasificar de manera precisa, ya que otros trastornos clínicos u otros estilos de respuesta pueden tener correlación con una magnitud similar. El Inventario Clínico Multiaxial de Millon-III, MCMI-III, por sus siglas en inglés; Millon, 1994) es un ejemplo de cómo la escala Z (Debasement Index or faking bad; índice de devaluación o simulación errónea) tiene correspondencia a .60 o más con seis escalas clínicas; estas escalas también corresponden con otras escalas clínicas y con la escala X (Disclosure Index or willingness to disclose problems; índice de sinceridad o disposición para revelar problemas) en la misma magnitud.?

​

Una consecuencia importante del enfoque de características discriminantes dio como resultado la cuidadosa elaboración de estrategias de detección. La siguiente sección describe las estrategias de detección empírica validadas para los estilos de respuesta comunes, también incluye un estudio crítico sobre su uso pertinente en la práctica profesional.

​​

Descripción de las estrategias de detección

Las características discriminantes son específicas para una escala en particular y no pueden -sin una investigación sistemática- generalizarse a otros métodos de evaluación. Por ejemplo, las primeras investigaciones de la escala L del MMPI proponían que la negación de defectos personales y manías pueden ser útiles en la valoración de la defensividad.

¿Este descubrimiento es apto como estrategia de detección?

​

Como respuesta condicionada, este acercamiento sólo se convierte en una estrategia de detección cuando ha sido conceptualizado con claridad, puesto en práctica con reactivos específicos y probado de manera rigurosa con múltiples medidas a través de varios escenarios. Con base en conceptualizaciones anteriores (p. ej., Rogers, et al., 1993; Rogers y Bender, 2013), la definición general de estrategias de detección se presenta en el recuadro 1.

​

Esta definición incluye cinco criterios imprescindibles, en específico (1) método estandarizado, (2) base conceptual,

(3) validación empírica, (4) diferenciación sistemática y (5) un estilo de respuesta específico. A continuación cada componente se examina brevemente:

  1. Los métodos estandarizados son esenciales en todas las iniciativas científicas. Las estrategias de detección deben ser operacionalizadas para proporcionar reactivos per-sonalizados, deben tener puntajes y formas de aplicación metódicos, para que los resultados puedan ser examinados de forma rigurosa y sometidos a validación cruzada.

  2. Se debe describir una base conceptual con el objetivo de comprobar el fundamento subyacente de una estrategia de detección específica y de evaluación para distintas hipótesis. Sin un marco bien definido, la investigación se puede desaprovechar con un enfoque ateórico y con resultados difíciles de interpretar.

  3. La validación empírica se enfoca en el uso de metodología probada para validar una estrategia de detección específica. Como se resumió en el capítulo 1, la validación empírica de las estrategias de detección incluye, de manera óptima, diseños de simulacro para detectar la simulación y comparación de grupos conocidos. Evita metodología deficiente (p. ej., tasas de prevalencia diferencial y contrastes inadecuados (p. ej., contraste de protocolos fingidos versus intactos). Otras razones metodológicas son reseñadas por Rogers y Gillard (2011) y por Rogers.

  4. La diferenciación sistemática se centra en estimaciones de fiabilidad. Por sí sola, la relevancia estadística representa un indicador inadecuado de precisión. Muchos estudios de estilos de respuesta generan resultados con alta probabilidad de relevancia estadística; sin embargo, tienen poca utilidad práctica en la práctica profesional. En cambio, la magnitud de la diferencia es la cuestión fundamental. (Wilkinson and the Task Force on Statistical Inference, 1999). A causa de su claridad, este libro utiliza Cohen d como la medida estándar para el tamaño del efecto. 

Recuadro 1. Definición de estrategias de detección

Una estrategia de detección es un método estandarizado con un marco conceptual validado de forma empírica para diferenciar de manera sistemática un estilo de respuesta específica (p. ej., simulación y defensividad) de otros estilos de respuesta (p. ej., respuestas honestas o respuestas irrelevante.

​Más allá de los tamaños del efecto, la condición sine qua non de la precisión clínica es el nivel de la clasificación individual.

Herramientas de cálculo son utilizadas para determinar las probabilidades de que las puntuaciones de corte puedan identificar de forma correcta un estilo de respuesta específico (Streiner, 2003).

​

5. La delimitación de un estilo de respuesta específico (SRS, por sus siglas en inglés) es esencial para la interpretación exacta de los resultados. Por ejemplo, algunas investigaciones sobre simulación de deterioro cognitivo intentan sustituir el esfuerzo subóptimo con la simula-ción. Esta derivación de significado (p. ej., expansión de la conceptualización de simulación para que acepte cualquier manifestación de motivación inadecuada) produce resultados imprecisos y quizás engañosos. Investigadores y médicos deben verificar que los grupos criterio y conjuntos de instrucciones correspondan con los estilos de respuesta específicos en cuestión.

​

¿Cuál es una buena estrategia de detección? Al juntar los cinco criterios antes mencionados, la estrategia de detección debería someterse a validación cruzada con diferentes medidas y debería producir de manera consistente el tamaño del efecto y clasificaciones certeras (Rogers y Ben-der, 2013). Si no es efectiva de manera transversal en distintas acciones, entonces la estrategia de detección no está lo suficiente establecida y podría estarse beneficiando por características idiosincráticas de una escala en específico. Si el tamaño del efecto es moderado, entonces la estrategia de detección es relativamente ineficaz y debería evitarse, a menos que pueda implementarse con exactitud a un objetivo delimitado, como descartar un estilo de respuesta.

​

Las estrategias de detección para los estilos de respuesta deben ser concretas, enfocarse en un estilo de respuesta específico dentro de un dominio determinado. De hecho, recién, los investigadores han intentado enfocarse en el fingimiento de diagnósticos específicos. Por ejemplo, desarollaron una escala en el MMPI-2 para evaluar de manera concreta los trastornos por estrés postraumático fingidos (escala TEPT; p. ej., FTEPT; Elhai, et al., 2002).​

​

Naturaleza enfocada de las estrategias de detección

Un fundamento principal es que las estrategias de detección no son universales, se deben plantear según cada estilo de respuesta específico y para dominios bien definidos. Sin duda alguna, se necesitan diferentes habilidades de detección para evaluar distintos estilos de respuesta. Por ejemplo, la evaluación de simulación del MMPI-2 (Rogers, et al., 2003) utiliza estrategias de detección muy diferentes a las utilizadas para evaluar defen sividad (Baer y Miller, 2002). Aunque pueda ocurrir una relación inversa entre simulación y defensividad (p. ej la hipótesis de bipolaridad; Greene, 2011), se ha comprobado que las estrategias de detección enfocadas en un estilo de respuesta específico son más efectivas.

​

Para ejemplificar este punto con el MMPI-2, Rogers et al. (2003) hallaron tamaños del efecto grandes a muy grandes para las escalas de validez basadas en estrategias de detección del fingimiento. En contraste, la ausencia de defensividad (p. ej., puntuación baja en las escalas que utilizaban sus estrategias de detección) por lo general producía sólo un tamaño del efecto pequeño o moderado para las respuestas fingidas.

​

Las estrategias de detección deben tomar en consideración los amplios dominios en los cuales los estilos de respuesta específicos ocurren por lo común. Tres de estos amplios dominios son: trastornos mentales, habilidades cognitivas y alteraciones médicas (Rogers y Bender, 2013).

​

Considere la simulación; las personas que fingen trastornos esquizofrénicos se enfrentarán a una tarea muy diferente a la de aquellos que simulan una deficiencia intelectual. En lo que respecta a la esquizofrenia fingida, los simuladores tienen que crear un conjunto de síntomas verosímiles y rasgos relacionados. Para lograr ser complejos, los simuladores deberán también decidir la orientación del episodio en turno, el impedimento asociado y su insight sobre su trastorno (p. ej., conciencia de que el comportamiento psicótico es sintomático). En cambio, los individuos que finjan discapacidad intelectual deben mostrar un esfuerzo convincente mientras intentan fallar indicadores intelectuales y cognitivos.

​

Para lograr ser complejos, los individuos fingidores deben decidir no sólo qué tan mal reprobarán si no también en qué pruebas, y, además, deben decidir cómo esos fracasos afectarán su funcionamiento diario. Ya que las labores de los simuladores son dispares se necesitan diferentes estrategias de detección.

​

El dominio médico es mucho más complejo que cualquier trastorno mental o habilidad cognitiva. A través de la simulación médica los pacientes se pueden especializar en retratar un síntoma debilitante (p. ej., dolor), retratar una constelación de padecimientos comunes, pero dolorosos (p. ej., jaquecas, fatiga, y problemas gastrointestinales), o se especializan en síndromes complejos (p.ej., fibromialgia). A veces, los investigadores intentan adoptar medidas ante la discapacidad médica genuina y ante los deterioros cognitivos fingidos. Por ejemplo, las señales físicas de Waddell (indicadores neurológicos no orgánicos)

​

han sido utilizadas de manera errónea como evidencia de simulación; un uso no respaldado por la literatura empirica (Fishbain, et al., 2004). En vista de las complejidades de las presentaciones médicas, las estrategias de detección en el dominio médico se enfrentan a formidables desafío en cuanto a su desarrollo y validación.

​

Se necesitan dos parámetros al evaluar la utilidad de las estrategias de detección: tamaño del efecto y estimados de utilidad. El tamaño del efecto facilita un método estándar para evaluar el valor comparativo de las diferentes estrategias de detección al distinguir entre los grupos criterios relevantes.

​

Los cálculos de utilidad comprueban la efectividad de determinadas puntuaciones de corte en la clasificación de estilos de respuesta individuales y grupales. Estos parámetros se examinarán en las siguientes dos secciones.

​

Tamaño del efecto y estrategias de detección

La obra seminal de Cohen (1988) sobre tamaños del efecto fue diseñada para contemplar diferencias pequeñas como relevantes para las investigaciones psicológicas; por ejemplo, recomienda que a un tamaño del efecto de 80 se le considere "grande", aunque las diferencias hayan sido sustancialmente menores que en la desviación estándar de un grupo. Se necesitan estándares más rigurosos en la práctica profesional, en especial cuando la presencia de un estilo de respuesta puede servir para invalidar la presentación clínica de un individuo (Ferguson, 2009). Para la evaluación de la simulación, Rogers et al. (2003) propusieron estándares más rigurosos para Cohen d: "moderado" ≥ 75; "grande" ≥ 1.25; y "muy grande" ≥ 1.75. Con base en el metaanálisis de defensividad de Baer y Miller (2002), el estándar recomendado para un tamaño del efecto "muy grande" (≥ 1.50) es ligeramente más bajo que para la simulación. Como referencia rápida se presentan las categorías para el tamaño del efecto (Cohen d) en el recuadro 2.

Recuadro 2. Categorización del tamaño del efecto basada en Cohen para la clasificación

de estilos de respuesta

Moderado≥ .75               Grande≥ 1.25              Muy grande≥ 1.50

Puntuaciones de corte para la evaluación correcta de los estilos de respuesta

Esta relevante sección incluye temas clave que deberían tomar en cuenta los clínicos e investigadores.

Cada párrafo está brevemente titulado para facilitar su uso accesible.

​

• Imprecisión en la evaluación psicológica. Los profesionales de la salud mental necesitan saber la precisión de las puntuaciones de corte y también necesitan conocer las reglas más complejas de toma de decisión utilizadas en determinaciones clínicas, tales como un estilo de respuesta específico. Hasta nuestros mejores instrumentos psicométricos a menudo son imprecisos y, a veces, son sólo inexactos. Como evidencia de imprecisión considérese brevemente la Escala Wechsler de Inteligencia para Adultos -IV (WAIS-IV, Wechsler, 2008), un excelente indicador psicométrico. Cuando se toma en cuenta su estimación de error estándar (SEM = 2.16), podemos decir con el 95% por ciento de seguridad que una Full-Scale 10 del WAIS-IV (Escala Completa de CI; FSIQ, por sus siglas en inglés) de 100 (el 50avo percentil) reside en algún lugar entre el 39avo y 61avo percentil (ver Wechs-ler, 2008, Apéndice A.7). La inexactitud también se hace evidente en instrumentos de valoración de psicopatologías, como el MMPI-2. Tomando en cuenta el SEM en escalas clínicas estándar del MMPI-2 (de forma conservadora unos 6T puntos; (Rogers y Sewell, 2006), una elevación de margen en 65T tiene hasta 95% de probabilidad de localizarse entre 53T (normal-sin elevación) hasta un 77T (elevación moderada). Mi punto es que algunos especialistas están muy confiados en la precisión de sus resulta-dos. En especial, cuando toman decisiones consecuentes acerca de los estilos de respuesta, los especialistas deberían ser más prudentes en sus conclusiones y tomar en cuenta las imprecisiones de sus mediciones.

​

• Riesgos de las puntuaciones de corte de un solo punto. Rogers y Bender (2013) recomiendan que los psicólogos y otros clínicos tomen en cuenta las imprecisiones de las puntuaciones de corte de un solo punto (p. ej., en el Inventario de Evaluación de la Personalidad [PAl, por sus siglas en inglés], un puntaje de 70T significa una elevación clínica, mientras que uno de 69T no). Hacen hincapié en esto al sugerir que una diferenciación tan exacta supone, de manera implícita, un "mito de precisión láser en las puntuaciones límite" (Rogers, et al., 2012, p. 79; énfasis en el original). Además, Rogers et al., demostraron de forma empírica que los puntajes PAl, que se encuentran demasiado cerca a la puntuación de corte (+ 5T), tenían una tasa de error clasificatoria excedente a 50%. Cuando también se tomaron en cuenta los errores de medición, la tasa combinada de errores se aproximó a 75%.

​

• Puntuaciones de corte bien definidas. El mito de la precisión láser, por lo general, se puede evitar al crear una franja de puntuación que esté "demasiado cerca de la clasificación, pero sin errores sustanciales" (Rogers y Bender, 2013, p. 522; énfasis en el original). Las puntuaciones de corte bien definidas -al eliminar la estrecha franja de puntajes indeterminados (p. ej., # 5T o 1 SEM-pueden mejorar de manera sustancial la precisión de la clasificación. Al utilizar Rogers et al. (2012) para ejemplificar, la puntuación de corte de IMN (impresión negativa) de ≥ 70T para la simulación (y de un solo punto de diferencia < 70T para respuestas genuinas), se convierte en un puntaje bien definido al remover + 5T (es decir, al aumentar la puntuación límite a ≥ 75T para la simulación y al bajarla a < 65T para respuestas genuinas). Además, la categorización bien definida también se puede lograr a través de escalas múltiples, construyendo así un modelo de decisión (p. ej., el Structured Interview of Reported Symptoms-2 [entrevista estructurada de síntomas repor-tados], SIRS-2; Rogers, et al., 2010).

​

• Ventajas de las puntuaciones de corte bien definidas. El uso profesional de puntuaciones de corte bien definidas disminuye tanto los errores de medición como los de clasificación. Los errores de medición se suscitan cuando se miden constructos psicológicos complejos y médicos. Puntajes en SEM (# 1) son en especial vulnerables a los errores de medición. Como los investigadores de estilos de respuesta pueden fácilmente atestiguar, la distribución con claridad bimodal de los puntajes de los estilos de respuesta específicos no sucede en el ámbito profesional. Como resultado, establecer puntuaciones de corte conlleva algo de arbitrariedad lo cual se refleja en errores de clasificación. Por lo tanto, la exactitud en la clasificación mejora al excluir el estrecho rango de casos demasiado cercanos para clasificar.

Los clínicos e investigadores a menudo no toman en consideración las ventajas comparativas que existen entre los puntajes de un solo punto versus las puntuaciones de corte bien definidas. Para su rápida consulta, se esbozan en el recuadro 3.

Recuadro 3. Puntuaciones de corte de un solo punto versus puntuaciones de corte bien definidas

  • Puntuaciones de corte de un solo punto clasifican a todos los evaluados asignándolos arriba o abajo de un punto designado; son susceptibles tanto a errores de medición como de clasificación y, cuando se toman en cuenta ambos errores, la tasa puede exceder a 50%

  • Puntuaciones de corte bien definidas remueven un grupo indeterminado (p. ej., ‡ 1 SEM) que se encuentre demasiado cerca para clasificarse, como un método sistemático para mejorar los estimados de utilidad.

©2025 by Academia Mexicana de Psicobiología y Neurociencias

Colegio Mexicano de Neurociencias

Consejo Mexicano de Neurociencias 

Derechos Reservados

bottom of page