©2020 by Instituto Superior de Neurociencias.

Academia Mexicana de Neurociencias

Consejo Mexicano de Neurociencias A.C.

Derechos Reservados

INTERPRETACIÓN DE CORTES ENCEFÁLICOS EN TOMOGRAFÍA Y RESONANCIA MAGNÉTICA.

UNIDAD 3

Subunidad 3.3.

Contenido de la Unidad

  • Texto explicativo

  • Imágenes

  • Actividades de aprendizaje

  • Facebook
  • Twitter
  • YouTube
  • Pinterest
  • Tumblr Social Icon
  • Instagram

Estudio de la conectividad funcional y efectiva en EEG/MEG

INTRODUCCIÓN

El análisis de interdependencia entre señales se ha convertido en un campo importante de investigación en los últimos años, principalmente debido a los avances en la caracterización de sistemas dinámicos a partir de las señales que producen (con conceptos como la sincronización de fase o generalizada), y a la aplicación de la teoría de la información al análisis de series temporales.

 

En neurofisiología han surgido, a partir de estos conceptos, diferentes herramientas que se han añadido al conjunto de medidas lineales «tradicionales» como la correlación cruzada, en el dominio del tiempo o la función de coherencia. Así, se han propuesto recientemente varias medidas para evaluar cómo se comunican las diferentes partes del cerebro a diversas escalas (células individuales, columnas corticales, o áreas cerebrales). Podemos clasificarlos en dos grandes grupos, según den información o no acerca de la direccionalidad de la interacción: una parte, las medidas simétricas, como la correlación, la coherencia o la sincronización de fase, que evalúan la conectividad funcional (CF); mientras que las medidas asimétricas, como la causalidad de Granger o la transferencia de entropía, son capaces de detectar la dirección de la interacción, lo que denominamos conectividad efectiva (CE).

 

En la neurociencia moderna ha aumentado el interés por el estudio de las redes funcionales cerebrales, en gran medida debido a la aparición de estos nuevos algoritmos que permiten analizar la interdependencia entre señales temporales, además de la emergente teoría de redes complejas y la introducción de técnicas novedosas, como la magnetoencefalografía (MEG), para registrar datos neu rofisiológicos con gran resolución.

 

Se ha sugerido que la teoría de redes (cuya aplicación en la neurociencia moderna se cubrirá con más detalle en un capítulo posterior) es especialmente adecuada para el estudio de la función cerebral, puesto que nuestro cerebro contiene cerca de 1014 sinapsis neuronales, y esta enorme cantidad de conexiones proporciona un entorno ideal para que distintos grupos de neuronas se sincronicen transitoria o permanentemente y provoquen la aparición de funciones cognitivas, como la percepción, el aprendizaje, la memoria, el lenguaje o el pensamiento. Por tanto, comprender la organización de esta compleja red cerebral en función de datos neurofisiológicos, representa uno de los desafíos más importantes y emocionantes en el campo de la neurociencia. En éste y en el siguiente capítulo revisaremos algunas de las herramientas más utilizadas para el estudio de la CF y la CE a partir de datos de MEG y electroencefalografía (EEG), puesto que ellas son los pilares sobre los que se asienta el estudio de las redes funcionales cerebrales. En concreto, y en lugar de cubrir el extenso número de medidas de CF y CE existentes en la actualidad, nos centraremos en revisar los métodos más novedosos que se han añadido recientemente a las ya mencionadas herramientas tradicionales.

 

Hay que destacar que esta unidad y la siguiente son en cierta medida complementarias: mientras que en ésta discutiremos con detalle las bases matemáticas sobre las que se asienta la estimación de los índices en general, y en particular de los más usados en neurociencia, en el siguiente ampliaremos el conjunto de los mismos, pero centrándonos en su comportamiento y rango de variación. Esperamos que, en conjunto, ambos capítulos proporcionen una referencia suficiente para poder aplicar esta metodología en su práctica investigadora.
 

MÉTODOS PARA ESTIMAR LA CONECTIVIDAD FUNCIONAL

En el caso de la CF, estudiaremos los índices bivariantes basados en los conceptos de la transformada wavelet, la sincronización de fase y generalizada y la teoría de la información.

La coherencia wavelet: más allá de la coherencia tradicional

 

El primero de los índices «modernos» de CF que vamos a revisar es la coherencia wavelet. El análisis de wavelets representa un avance respecto a la transformada de Fourier, pues permite estimar las propiedades espectrales de una señal no estacionaria con resolución temporal. El análisis wavelet permite el uso de intervalos largos de tiempo en aquellos segmentos en los que se requiere una mayor precisión en baja frecuencia, e intervalos más cortos donde se requiere información en alta frecuencia. La transformada wavelet descompone la señal en versiones trasladadas (en tiempo) y escaladas (dilataciones y contracciones) de la wavelet original, más conocida como la Wavelet madre. La escala puede interpretarse como el inverso de la frecuencia y la traslación representa el desplazamiento en tiempo que presenta la señal Wavelet madre, por lo que tiene una estrecha relación con la escala temporal. Existen diferentes tipos de funciones wavelets, donde la relación entre escala y frecuencia varía. La función más usada en el análisis de las señales neurofisiológicas es la función Morlet.

 

Cono de influencia

 

Debido a que trabajamos con series temporales de duración finita, las wavelets están sometidas a los mismos
problemas en los extremos de la señal (el conocido «efecto borde») que la transformada de Fourier. Una opción muy empleada en ambos casos es utilizar la técnica conocida como padding, que consiste en rellenar con ceros los extremos de la serie (previamente normalizada a media cero) antes de realizar el análisis wavelet, y después cortar dichos segmentos para la interpretación de los resultados. Rellenar con ceros, sin embargo, introduce discontinuidades en la vecindad de los extremos. El cono de influencia (COI, Cone of Influence) es la región del espectro wavelet en la cual los efectos de borde se hacen más importantes. COI suele definirse como el tiempo e- folding para la correlación de la potencia wavelet a cada escala. De esta forma nos aseguramos que los efectos de borde son nulos fuera de este punto (para más detalles, v. Torrence y Compo, 1998). El tamaño del COI a cada escala da una medida del tiempo de decorrelación para un evento en la serie temporal. Comparando el ancho de un pico en el espectro de potencias wavelet con este tiempo de decorrelación, se puede distinguir entre un disparo en los datos (posiblemente debido a ruido) de una componente armónica equivalente a la frecuencia de Fourier.

 

Definición de la coherencia wavelet

 

El uso de la transformada wavelet permite realizar un análisis en tiempo y frecuencia simultáneamente de las componentes rítmicas constituyentes de la señal que debe analizarse. Los coeficientes wavelet pueden considerarse como una función dependiente del tiempo y la escala o frecuencia. De forma análoga al espectro cruzado basado en la transformada de Fourier, y a partir del cual se define la función de coherencia «clásica» en el dominio de frecuencias, es posible definir el espectro cruzado wavelet para dos series temporales, x(t) e y(t), tal que:

Por tanto, la coherencia wavelet entre x(t) e y(t) es una medida de asociación normalizada que se define como:

Donde S es un operador para suavizar la función y E es la autocorrelación. La coherencia puede dar, de forma eventual, valores artificialmente altos en el caso de espectros de potencia infinitesimalmente bajos para cualquiera o ambas señales, es decir, E(u,s) ~ 0. Para evitar este problema en los cálculos numéricos empleamos un procedimiento de umbral, poniendo a cero aquellos valores de la coherencia que correspondan a valores de potencia por debajo de un umbral establecido.

Dos señales linealmente independientes tendrán un valor nulo de la coherencia, mientras que C(u,s) = 1 indica una perfecta relación lineal entre las señales a escala s y localización u. En la figura 1 se puede observar la forma típica que tiene la coherencia wavelet entre dos señales, así como su COI. Se puede realizar un test de significancia estadística relativa a una hipótesis nula sobre la coherencia wavelet aplicando el método de datos subrogados9. Además, existen paquetes estadísticos libres (la mayoría basados en Matlab que permiten el cálculo de la coherencia wavelet de forma sencilla.

FIGURA 1 Representación típica de la función de asociación determinada con la coherencia wavelet en el dominio de tiempo (eje horizontal) y de frecuencia (eje vertical). La intensidad de color representa la fuerza de asociación entre los dos procesos. El cono de influencia delimita la región del espacio tiempo-frecuencia donde debe considerarse la coherencia libre de efectos de borde. Las líneas negras delimitan las regiones de coherencia estadísticamente significativas.

Sincronización de fase

 

La sincronización de fase (PS, Phase Synchronization) se refiere a una situación en la que las fases de dos osciladores acoplados se sincronizan, a pesar de que sus amplitudes pueden no estarlo. Por consiguiente, para cualquier tiempo t se cumple la siguiente ecuación: (4)

donde (Φ)x(t) y Φx(t) son las fases de x(t) e y(t), respectivamente. A (3) se la denomina condición de acoplamiento de fase (PLC, Phase Locking Condition). En sistemas experimentales, a menudo las señales son ruidosas y pueden presentar saltos aleatorios de fase de 2π. Por lo tanto, preferiremos trabajar con la fase relativa cíclica, es decir, la diferencia de fase relativa en el intervalo [0,2 π], la cual se define como:

Además, en este contexto, la PLC (3) debe entenderse en un sentido estadístico, como la existencia de un valor preferido en la distribución de (4).

 

Por tanto, antes de estimar el grado de PS entre dos señales, es necesario cierto preprocesamiento. En primer lugar, a partir de las señales de valor real x(t) e y(t), se obtienen sus señales analíticas correspondientes X an(t) e Yam(t) como:

donde xH(t) e yH(t) son las transformadas de Hilbert de x(t) e y(t), respectivamente. La transformada de Hilbert de una señal x(t) se define como*:

donde las siglas PV indican el valor principal de Cauchy. Luego, para la señal xan(t) (y, de forma análoga, para yan(t)) la amplitud y fase instantánea se pueden expresar respectivamente como:

En los apartados siguientes se revisan los índices de PS más utilizados en la literatura neurocientífica: en primer lugar, el valor de acoplamiento de fase (PLV, Phase Locking Value) y, en segundo, el índice de retraso de fase (PLI, Phase Lag Index).

Acoplamiento de fase (PLV) El PLV fue introducido por Lachaux et al. y hace uso de la diferencia de fase relativa descrita en (4). Se define como:
 

donde < > indica el promedio a lo largo del tiempo. El PLV estima cómo se distribuye la fase relativa sobre el círculo unidad. Cuando existe una fuerte PS entre X e Y, la fase relativa ocupa una pequeña porción del círculo unidad (fig. 2 A) y, por tanto, el PLV toma un valor próximo a 1. Esto se corresponde también con una distribución de la fase relativa con una varianza muy pequeña (fig. 2 B). Por el contrario, cuando los sistemas no están sincronizados, la fase relativa se extiende por todo el círculo unidad y el PLV toma valores bajos (fig. 2 C y D). El PLV mide la variabilidad interensayo (intertrial) de esta diferencia de fase en un tiempo t.

 

En la literatura también se han referido al PLV como «coherencia media de fase» (Mean Phase Coherence)  cuando se trabaja con datos continuos, en lugar de con datos obtenidos de respuestas evocadas. 

El rango de valores alcanzado por el PLV es: 0 < PLV < 1. Cuando el PLV toma un valor igual o muy próximo a «0», es muy probable que la fase relativa esté distribuida uniformemente por el círculo unidad (como sería de esperar, en promedio, para los sistemas no sincronizados). Sin embargo, un PLV igual a «0» también puede ocurrir si, por ejemplo, esta distribución tiene dos picos a valores que difieren en n radianes. El PLV alcanza un valor igual a «1» si y sólo si se cumple la condición estricta de acoplamiento de fase, es decir, la diferencia de fase es constante, y por lo tanto, se detecta una PS completa. El PLV no es robusto frente a la presencia de fuentes comunes (como los efectos de conducción de volumen -frecuentes en EEG y MEG- y la referencia activa -presente en EEG-). Por este motivo se propuso, recientemente, el índice que se explica en el siguiente apartado. 

FIGURA 2 Distribución circular (izquierda) e histrograma (derecha) de la fase relativa (prei,xV(t) para dos señales acopladas (Ay B) o desacopladas (C y D) en fase. En ambos casos el PLV es el módulo del promedio de los vectores en la distribución circular (próximo a 1 en el primer caso, y a 0 en el segundo). En el ejemplo de arriba, PLV y PLI coinciden, ya que todas las fases son positivas, lo cual indica la existencia de un retraso temporal entre ambas señales. Sin embargo, si la misma distribución estuviese centrada en tomo a 0 o n entonces PLV no cambiaría pero PLI sería 0. Esta es la diferencia esencial entre ambos índices, que son complementarios.

Índice de retraso de fase (PLI)

 

Como se ha comentado anteriormente, la verdadera interacción entre fuentes neuronales produce una relación coherencia de fase entre dos series temporales alrededor de un valor diferente de 0 a π. Por esta razón, se utiliza este hecho para estimar la existencia de interdependencia con un cierto retraso temporal directamente de la distribución de (4), mediante una medida denominada índice de retraso de fase14 (o PLI). Esta medida descarta las distribuciones de fase centradas alrededor de 0 mod π con el fin de ser robusto frente a la presencia de fuentes comunes (conducción de volumen y, en el caso de EEG, la posible referencia activa).

El rango de valores alcanzado por el PLI es: 0 < PLI < 1. Un valor del PLI igual a «0» indica que no existe acoplamiento o que, si existe, se está produciendo con una diferencia de fase centrada alrededor de 0 mod π .


Cuando el PLI toma el valor «1» indica un acoplamiento de fase perfecto con un valor de la fase relativa diferente de 0 y π.

El PLI es robusto frente a la presencia de fuentes comunes, lo que supone una gran ventaja; sin embargo, su sensibilidad al ruido y a la conducción de volumen se ve obstaculizada por la discontinuidad que presenta la definición de la medida, ya que pequeñas perturbaciones pueden provocar que los retrasos de fase se conviertan en adelantos, y viceversa, es decir, que obtendríamos valores positivos y negativos que podrían cancelarse entre sí, un problema que puede llegar a ser grave para detectar una sincronización de pequeña magnitud. Este problema puede resolverse mediante el uso de una versión ponderada de este índice (wPLI), tal como se explica en Vinck et al.

Sincronización generalizada

 

En el apartado anterior hemos visto cómo es posible encontrar situaciones en las que las fases de dos señales están relacionadas entre sí sin que lo estén sus amplitudes. Esto sucede generalmente en aquellas situaciones en las que el acoplamiento entre los correspondientes (sub) sistemas que las generan es débil. Si este acoplamiento aumenta, es posible encontrar situaciones en las que el estado de uno de los (sub)sistemas, Y, es una función de los del otro subsistema, X. Es decir, Y = F(X). A esta situación se la conoce con el nombre de sincronización generalizada (GS, Generalized Synchronization). En sistemas experimentales, la función F suele ser desconocida, y cambiante en el tiempo, así como las ecuaciones de estado de cada uno de los subsistemas. Sin embargo, la existencia de GS entre X e Y tiene siempre un efecto que resulta muy útil para su estudio a partir de series temporales: estados similares tienden a ocurrir de manera simultánea en ambos subsistemas, lo que en términos de las series temporales se traduce en que si los patrones temporales de x(t) en los instantes t¡ y t, son parecidos, también lo serán los patrones de y(t) en esos mismos instantes. En este hecho reside la clave para cuantificar el grado de GS entre dos señales neurofisiológicas.

 

Reconstruyendo el espacio de estados Como se ha visto, para poder estimar el grado de GS entre dos sistemas a partir de las señales que generan, primero hay que estimar, a partir de éstas, el estado de cada uno de ellos en cada instante. Para ello, y dadas dos series temporales registradas simultáneamente, x(t) = (x¡, x2/... xN) and y(t) = (yi,y2,—,yN)/ es posible obtener vectores de d componentes a partir de los valores consecutivos de cada serie temporal: 
 

Sean rn,¡ y sníj (j = l,...,k) los índices temporales de los k vecinos más próximos de x„ e y„, respectivamente (es decir, los instantes de tiempo donde se producen, en cada serie temporal, los patrones más similares a ambos vectores). El promedio de la distancia euclídea entre x„ y sus k vecinos más próximos es:

Mientras que la distancia promedio entre xn y sus vecinos condicionados por yn es: (11)

Por último, el radio del conjunto de vectores reconstruidos en X se define como:

Si tenemos en cuenta el efecto de la GS mencionado arriba, es posible utilizar estas distancias para definir diferentes índices de interdependencia. Así, por ejemplo, inicialmente se pensó que el índice de similaridad, definido como: (13)

permitía una estimación robusta de la interdependencia entre ambos sistemas, que además podría proporcionar información acerca de la direccionalidad de la conectividad. En efecto, cuando los sistemas son independientes, es mucho mayor que (11) y el índice tiende a «0», mientras que si los sistemas son dependientes, ambas distancias se parecen y el índice tiende a «1». Sin embargo, pronto se descubrió que dicho índice era sensible, al menos en cuanto a la estimación de dicha dirección, a diferentes características de la señal individual (en especial su complejidad, directamente relacionada con el contenido en altas frecuencias de la señal), por lo que se definieron diferentes índices que mejoraban este aspecto. Entre ellos, cabe destacar dos índices. En primer lugar, el índice L(X I Y), definido como:

donde las distancias Gn(X) etc. son las versiones equivalentes a las Rn(X) etc., pero calculadas sobre el conjunto de rangos de los vectores (y, por tanto, normalizadas), ha demostrado ser muy útil en aplicaciones de neuroimagen. Sin embargo, el índice de GS más utilizado con mucho en el estudio de EEG/MEG es el conocido como probabilidad de sincronización (SL, Synchronization Likelihood). Este índice tiene el mismo rango de variación que (13), pero sacrifica la posibilidad de obtener información direccional a cambio de ser más robusto frente a las características individuales de cada señal. Además, aunque se utiliza generalmente como índice de CF bivariante (entre dos señales, x(t) e y(t)), es un índice intrínsecamente multivariante, que permite estudiar el grado de acoplamiento de cada señal al conjunto de las demás.

Información mutua

 

La teoría de la información se basa principalmente en una medida que cuantifica la información de una variable aleatoria discreta (X); por tanto, su entropía de Shannon viene dada por: 
 

donde p(x) es la densidad de probabilidad individual (también llamada marginal). Es decir, p(xi) es la probabilidad de que un valor cualquiera de x(t), elegido al azar en la serie temporal, sea igual a Xi. Para el caso de variables continuas, la correspondiente entropía recibe el nombre de diferencial, y viene definida por: 

donde f: Rd R es la función densidad de probabilidad de X.

 

Para la estimación de la entropía diferencial de Shannon (o las distribuciones marginales de probabilidad, que veremos a continuación) hace falta un buen estimador y un test estadístico adecuado. Los estimadores presentan sesgos y errores estadísticos que dependen del método y las características de los datos. Un buen estimador debe ser robusto frente al ruido, comportarse bien con datos que dispongan de un número limitado de muestras y ser fiable cuando se enfrente a espacios de gran dimensionalidad. El estimador más utilizado normalmente para este caso es el de Kozachenko-Leonenko (KL). El estimador de KL es no paramétrico y está basado en los vecinos más cercanos késimos de un conjunto de muestras.

 

Utilizando el concepto de entropía, es posible definir un estimador de la CF entre dos series temporales, que tiene en cuenta no sólo las correlaciones lineales (como es el caso para el coeficiente de correlación de Pearson), sino también las posibles correlaciones no lineales entre ellas. Dicho estimador se denomina información mutua (MI, Mutual Information) y cuantifica la cantidad de información que se puede obtener de una de las señales observando la otra:

donde p(x,y) es la probabilidad de densidad conjunta (es decir, p(xÍ7yj) representa la probabilidad de obtener simultáneamente un valor x¡enxe y¡ en y). La información mutua recibe este nombre porque mide la cantidad de información compartida entre x e y. En efecto, si las dos señales son independientes, entonces la probabilidad conjunta factoriza, es decir, p(x,y) = p(x)p(y), y MI es cero. Por el contrario, si existe algún grado de dependencia entre las señales, entonces p(x,y) > p(x)p(y) y MI^ es mayor que cero (tanto mayor cuanto más grande sea la dependencia). Si ambas señales son iguales, entonces Mí^ = H(X) = H(Y). En la práctica, de hecho, muchas veces se calcula la información mutua como una combinación de entropías, utilizando el hecho de que MIXy = H(X) + H(Y) — H(X,Y). A pesar de ser el índice de CF más general, ya que detecta cualquier tipo de correlación ya sea en fase o en amplitud, lineal o no lineal, adolece de un problema fundamental, como es la dificultad de estimar de forma fiable las entropías en señales experimentales, por eso su uso en neurociencia no está tan extendido como en el caso de los índices basados en PS o GS. Pero cuando esta estimación sea posible, debería sin duda ser el índice de elección para estimar la CF. 

Cabe mencionar que recientemente se ha desarrollado una versión optimizada de MIxy denominada coeficiente de información máxima (MIC, Maximum Information Coefficient). Este índice ha sido considerado por algunos como «una correlación para el siglo XXI» y ha sido incluido en un paquete de software para diferentes lenguajes (incluyendo Matlab®) en un trabajo publicado en 2013.

 

MÉTODOS PARA ESTIMAR LA CONECTIVIDAD EFECTIVA


La CF resulta muy útil cuando queremos determinar la interdependencia estadística entre dos señales temporales. Sin embargo, hay ocasiones en las que estas medidas simétricas no nos proporcionan toda la información que deseamos, puesto que en determinados casos nos gustaría saber no sólo si dos regiones cerebrales, caracterizadas por sus respectivas señales temporales, están interactuando entre sí, sino, además, la dirección de esta interacción (es decir, la existencia de CE).

 

La ciencia consiste en hacer predicciones. Y precisamente con este propósito, los científicos intentan establecer las relaciones de causalidad entre dos observaciones. En neurociencia nos encontramos en un escenario donde una de las observaciones se puede manipular (p. ej., un estímulo), mientras que se mide la otra (en nuestro caso, la actividad neuronal). Sin embargo, es muy difícil inferir causalidad física de las dinámicas que se generan internamente de esta manera. Por lo que, a partir de ahora, para nuestras predicciones nos basaremos en el concepto de causalidad según lo introdujo el matemático estadounidense Norbert Wiener. Wiener estableció la importancia del orden temporal de los sucesos para poder deducir relaciones causales (es decir, por ejemplo, el hecho de que el pasado y el presente puedan influir en el futuro, pero esta influencia no pueda darse en el sentido opuesto), y definió la causalidad en un ámbito estadístico de la siguiente manera: supongamos que hay dos magnitudes variables en el tiempo (X e Y) que son medidas simultáneamente; si al tratar de predecir el futuro de una (X) incorporando información del pasado de la otra (Y), la predicción es mejor que usando únicamente información del pasado de la primera (X), entonces se puede decir que hay una relación de «causalidad» de la segunda sobre la primera (Y—»X).

 

A partir de ahora, cuando nos refiramos al concepto de causalidad, será siempre en este sentido. Esta definición no tuvo formulación matemática hasta que el británico Clive Granger, Premio Nobel de Economía en 2003, la formalizó en el contexto de los modelos regresivos lineales. 

Hay dos tipos de medidas de CE: en primer lugar, las paramétricas, que no utilizan la información de las observaciones sino un modelo generado a partir de ellas, y, en segundo, las no paramétricas, basadas directamente en los datos de las observaciones realizadas (p. ej., los basados en la información de las variables aleatorias).

 

Los métodos paramétricos basados en modelos específicos son los más usados hasta ahora en neurociencia. Suelen ser más rápidos y ofrecen unos resultados aceptables. Destacamos dos modelos fundamentales: los centrados en el concepto de causalidad de Granger, que aproximan la dinámica de la señal según un modelo estocástico y asumen interacciones lineales (estos modelos requieren que la interacción entre los sistemas se pueda describir aproximadamente por un modelo lineal, y que las señales tengan bajo nivel de ruido y bajo cross-talk), y los modelados de dinámica causal (DCM, Dynamic Causal Modeling), que asumen un espacio de estados bilineal (BSSM, Bilinear State-Space Model) que permite detectar interacciones no lineales entre los sistemas (pero requieren información de la señal de entrada y conocimiento a priori de las conexiones de la red, que no siempre están disponibles, como ocurre, por ejemplo, al analizar estados de reposo). 

Dentro de los modelos no paramétricos se encuentran, principalmente, los basados en teoría de la información41. Estos métodos no requieren información a priori del tipo de interacción, son capaces de detectar interacciones no lineales, incluso cuando existe una distribución de retrasos en la interacción muy amplia, y además son robustos frente al cross-talk lineal (muy presente en EEG y MEG). En lo que sigue nos centraremos en dos medidas de CE muy usadas y estrechamente relacionadas entre sí: la causalidad de Granger y la entropía de transferencia (TE, Transfer Entropy).

 

Causalidad de Granger Como hemos visto, siguiendo a Wiener, Granger expuso que si X está causando* a Y, entonces, añadiendo valores pasados de X al modelo predictivo de Y, mejorará el ajuste del valor actual de Y con respecto al caso en que sólo se tengan en cuenta valores pasados de Y, lo cual, en la práctica, suele examinarse comparando la bondad de los ajustes de modelos autorregresivos (AR) univariantes y bivariantes. Desde un punto de vista matemático, X e Y son dos procesos estocásticos, es decir, dos conjuntos de variables aleatorias indexadas por una variable, el tiempo, que no es más que un número real que recorre el intervalo de P (intervalo de tiempo en el que se realiza la medida).

 

En la práctica, sólo disponemos de un conjunto finito de valores (muestras) tomados en instantes equiespaciados de tiempo. La diferencia de tiempos entre dos instantes de medida es el período de muestreo y la magnitud inversa es la frecuencia de muestreo. El resultado del proceso de medida es una señal discreta (o serie temporal), que se define como una sucesión finita de muestras, donde el índice de cada término indica el instante de muestreo en que se tomó el valor. Así, hemos pasado de X e Y a X = {x(l), x(2),... x(N)} e Y = {y( 1), y(2),... y(N)j, siendo N el número de muestras de ambas señales. Como el modelo determinista que da lugar a los valores de ambas señales -suponiendo que lo hay- nos es desconocido, cada una de las muestras será el valor de una variable aleatoria para nosotros. Volviendo de nuevo al planteamiento matemático, X e Y son dos procesos estocásticos discretos, donde el índice temporal sólo puede tomar un número finito de valores naturales.

 

CASO UNIVARIANTE.

 

En el caso univariante, se expresa x(n) e y(n), como combinación lineal únicamente de sus propios valores en instantes anteriores ponderados por unos determinados coeficientes, desconocidos a priori, cuyos valores han de estimarse para obtener un ajuste óptimo**:
 

donde a¡j son los parámetros del modelo (coeficientes normalmente estimados por el método de los mínimos cuadrados), P es el orden del modelo AR, y son las incertidumbres o ruidos residuales asociados al modelo. Aquí la predicción de cada señal se hace únicamente con su propio pasado. El error de la predicción se expresa mediante la varianza de los ruidos residuales a lo largo de las distintas muestras: 

donde var(.) indica el operador varianza muestral a lo largo del eje temporal, y x I x es la predicción de x(t) por los valores de las muestras pasadas de x(t).


CASO BIVARIANTE.

 

Por otro lado, para modelos AR de dos variables, tenemos:

En este caso, la varianza de los errores de predicción será:

donde x I es la predicción de x(t) por los valores de las muestras pasadas de x(t) e y(t).


RELACIÓN DE CAUSALIDAD. Por tanto, la causalidad de Granger (GC) de Y a X se puede cuantificar como:

La GC tiene un rango de valores comprendidos entre: 0 ^ GCy^x < ∞.

  • Si el pasado de y(t) no ayuda a mejorar la predicción de x(t), entonces V ~V xi*,y, y por tanto, GCY_>x ~ 0, la medida de causalidad será próxima a cero*.

  • Si el pasado de y(t) mejora la predicción de x(t), entonces Vxix y, y por tanto, GCY_>x >0, decimos que Y causa a X.

En resumen, cualquier mejora de X debida a la inclusión de Y, lleva a una disminución de Vxix,y y, por tanto, a un incremento de la medida de causalidad (fig. 3). La GC en la dirección opuesta, es decir, de X a Y, se define análogamente. Centrándonos en los casos extremos, que son los más ilustrativos, si tanto GCy^x como GCx_,y son altas (según el criterio estadístico adoptado), entonces existe un enlace bidireccional entre las señales. Si ambas son bajas, no existe una relación significativa entre éstas. Si sólo una de ellas es alta, existe una relación acusadamente unidireccional.
 

FIGURA 3 Causalidad de Granger entre la señal x(t) (en rojo) y la señal y(t) (en azul). Para su cálculo se estima la varianza del error obtenido al predecir la próxima muestra de y(t) utilizando un modelo AR que toma sus P muestras anteriores y se compara con la varianza del error obtenido al predecir la próxima muestra de y(t) utilizando, además de las P muestras anteriores de y(t), las P muestras anteriores de x(t).

La GC tiene la ventaja de ser asimétrica y, por tanto, es capaz de detectar CE. Sin embargo, es un método paramétrico lineal, por lo que depende del modelo AR de orden P (normalmente, P se escoge tal que minimiza el criterio de información de Akaike o el bayesiano). Para aquellos interesados en explorar la GC y sus diferentes variantes, recomendamos la magnífica GCCA toolbox.

Otros métodos basados en el concepto de causalidad de Granger han sido contemplados con gran interés, como es el caso de la función de transferencia directa (DTF, Direct Transfer Function) y la coherencia directa parcial (PDC, Partial Directed Coherence), ambas caracterizadas en el dominio de la frecuencia, y siendo esta última capaz de descartar enlaces indirectos espurios. La parcialización es necesaria cuando se quiere saber si dos regiones tienen realmente una relación causal entre ellas, o todo ocurre a través de una tercera región que está mediando entre las dos. Al parcializar, somos capaces de minimizar la influencia de esta tercera región. Aunque muchas veces esto no es suficiente ya que necesitaríamos parcializar con respecto a un elevadísimo número de variables, cosa que hoy en día es muy costoso para análisis multivariantes. Además, incluso puede darse el caso en el que haya variables escondidas (hidden variables), las cuales no podemos medir, y por tanto no podemos parcializar respecto a ellas, pero están influenciando indirectamente a otras, provocando resultados ambiguos. Es interesante destacar también que en los últimos años han surgido aproximaciones no paramétricas al concepto de causalidad de Granger como es el caso de los métodos propuestos por Dhamala et al. 

 

En neurociencia hay numerosos estudios utilizando los conceptos de GC (véase, por ejemplo: Niso Galán, 2013; Niso et al., 2013; Ding et al., 2006, y los trabajos referenciados en ellos).

Entropía de transferencia

 

De la misma manera que, en el caso de la CF, es posible definir una medida no lineal de acoplamiento entre señales que se basa en la estimación de la probabilidad de cada señal y su comparación con la probabilidad conjunta (la información mutua), en el marco de la CE es posible calcular también una medida muy eficiente de direccio- nalidad, la entropía de transferencia, que tiene en cuenta, en lugar de las probabilidades estáticas, la dinámica en la transmisión de información. Si asumimos que dos señales x(t) e y(t) se pueden aproximar por procesos de Markov de orden n, (es decir, que el valor de cada una de ellas en el instante n depende de los valores en los n-1 instantes anteriores), Schreiber propuso una medida de causalidad en función a la desviación con respecto a la siguiente condición de Markov generalizada: (23)

donde x,m = (x„xt + l...,x,-m+i) e y," = (y„yt+i...,yt-n+i), y m y n son los órdenes (memoria) del proceso de Markov en X e Y, respectivamente. El lado derecho de (23) es la probabilidad de obtener un valor yt+1 conociendo su historia n pasos antes; mientras que el lado izquierdo estima esta probabilidad cuando se tienen en cuenta las dos historias de x(t) e y(t). Esto es conceptualmente muy parecido a la idea de causalidad introducida por Wiener, entendida como la mejora en el poder de predicción. Sin embargo, como se comentó anteriormente, la TE no asume ningún tipo de conocimiento a priori del tipo de dependencia (lineal o no lineal) entre los sistemas, y es un método no paramétrico.

 

El precio que hay que pagar a cambio de estas ventajas es que es necesario estimar las probabilidades a partir de la serie temporal que normalmente no es sencillo. La igualdad anterior se satisface plenamente cuando las probabilidades de transición (es decir, la dinámica) de y es independiente del pasado de x, lo que ocurre únicamente en ausencia de causalidad de X a Y. Para medir la desviación de esta condición (y, por tanto, la presencia de causalidad) se utiliza la divergencia de Kullback-Leibler entre las dos distribuciones de probabilidad en cada lado de (23), para definir la TE de X a Y como:

La TE mide la cantidad de flujo de información dirigido de X a Y. Basados en la definición anterior, la TE de la señal xt a yt se puede escribir como:

donde t es un índice temporal discreto y u denota al tiempo de predicción un intervalo temporal discreto (fig. 4) y xtdx e ytdy son vectores reconstruidos de dimensiones dx- y dy-. La TE también se puede calcular como una combinación de entropías: 

donde H es la entropía de Shannon y w es el futuro de x. El rango de valores posibles de la TE se encuentra entre 0 < TEX->y < oo. Un valor TEX->y = 0 ocurre cuando no existe causalidad entre X e Y, mientras que la TE alcanzará un valor mayor que cero, TEX->y > 0, cuando X cause a Y. La TE incorpora información de la dinámica y la direc- cionalidad de manera natural porque es inherentemente asimétrica y está basada en probabilidades de transición.

FIGURA 4 Entropía de transferencia entre la señal x(t) (en rojo) y la señal y(t) (en azul). Para su cálculo se estima la probabilidad de predecir la muestra de y(t+u), donde u es el tiempo de predicción, teniendo en cuenta el pasado tanto de y(t) como de x(t), y se compara con la probabilidad de predecir la muestra de y(t+u) utilizando únicamente el pasado de y(t).

Su principal fortaleza es que no asume ningún modelo particular de interacción entre los dos sistemas que analizamos. Por tanto, la sensibilidad de la TE a correlaciones de todo orden supone una ventaja para análisis exploratorios frente a la GC o a otros métodos basados en modelos. Esto es particularmente relevante cuando se requiere la detección de interacciones desconocidas. Sin embargo, a pesar de que la TE no asume ningún modelo, su estimación requiere por lo menos los siguientes parámetros: el retraso para la reconstrucción (t), la dimensión de reconstrucción (d), la masa de vecinos próximos que buscar (k), la ventana de corrección de Theiler (T) para excluir posibles efectos de autocorrelación y el tiempo (u) de predicción. A pesar de que no existe un consenso a la hora de establecer todos estos parámetros, se pueden ver los valores que se suelen usar por defecto y el rango permitido para cada uno de ellos en Niso et al., (2013).

 

Existen varias toolboxes que permiten el cálculo de estas medidas, entre ellas cabe destacar TIM 1.2.0 (http:// www.tut.fi/tim), desarrollado por Kalle Rutanen, y TRENTOOL (http://www.trentool.de) especialmente pensada para análisis en neurociencia. 

El primer intento de obtener una medida model-free fue la información mutua, que mide la cantidad de información que se puede obtener acerca de una variable aleatoria simplemente observando otra. Sin embargo, ésta es una medida simétrica y, por tanto, no nos da información sobre la direccionalidad (tampoco sobre la dinámica). No obstante, han surgido medidas como la MI con retraso, que es asimétrica y nos ofrece una cierta estructura dinámica gracias al retraso (lag) temporal. La MI captura la información compartida en lugar de la información intercambiada, presente en las dependencias causales. Y tiene problemas con las fuentes comunes y las fuentes externas. Sin embargo, estudios como el de Palus et al. (2001), demuestran que la TE se puede reescribir como una MI condicional.

 

También han surgido versiones parcializadas de la TE, igual que en el caso de la GC, que miden la cantidad de flujo de información dirigido de X a Y, descartando la posibilidad de que una tercera variable Z esté influenciando a las dos anteriores (X e Y). Es importante destacar que los dos métodos estudiados, GC y TE, son completamente equivalentes para variables gaussianas, tal como se demuestra en Barnett et al. (2009). En Wibral et al. (2014) es posible encontrar una revisión extensa y reciente de la aplicación de la GC y la TE en neurociencia.
 

RESUMEN CONCEPTUAL

La electroencefalografía (EEG) es un método de monitorización electrofisiológico que registra la actividad eléctrica del cerebro. Es una técnica no invasiva, con electrodos colocados sobre el cuero cabelludo y, por tanto, apta para ser utilizada en situaciones diferentes a las típicas de laboratorio. Cada función mental consciente e inconsciente es el resultado de la comunicación eléctrica entre las neuronas del cerebro humano.

 

No es posible registrar de un modo no invasivo la actividad eléctrica relativa a cada neurona, sin embargo la técnica de EEG es capaz de medir las fluctuaciones de voltaje o potencial eléctrico sobre el cuero cabelludo causadas por la actividad eléctrica concomitante de una población de neuronas. Estas fluctuaciones de voltaje pueden ser caracterizadas en términos de contenido espectral (bandas o ritmos EEG) o de características en el dominio del tiempo (Potenciales Evocados y Potenciales Relacionados con Eventos).

 

La actividad eléctrica cerebral espontánea (comunmente denominada "ondas cerebrales") de una área particular del cerebro en una banda particular puede ser asociada con procesos cognitivos específicos (p.ej. memorización, toma de decisiones, …) y estados mentales (p.ej. carga mental, fatiga, cansancio, …). El análisis de Potenciales Evocados (EP) consiste en medir la actividad sincrónica de la EEG con la presentación de un estímulo externo de diversos tipos (visual, acústico o somatosensorial).

 

Los Potenciales Relacionados con Eventos (ERPs) se refieren a respuestas de EEG sincrónicas con procesos más complicados de estímulos externos. La técnica de EEG es a menudo utilizada para diagnosticar la epilepsia, que causa anomalías en las ondas de la EEG. Es también empleada para diagnosticar desordenes del sueño, coma, encefalopatía y muerte cerebral. En general, la técnica de EEG suele ser la primera en utilizarse en las pruebas médicas sobre el cerebro humano, gracias a su no peligrosidad para el paciente, comparada con la Tomografía Computerizada (CT), es relativamente barata y no incómoda, comparada con la Resonancia Magnética (MRI), y tiene una gran resolución temporal (en milisegunos) no obtenible con CT o MRI. Además de las aplicaciones médicas, gracias a sus ventajas, la técnica de EEG es ampliamente empleada en la investigación en neurociencia, psicología cognitiva, psicofisiología y neuroergonomía.

 

La Magnetoencefalografía (MEG) es una técnica que recoge actividad funcional neuronal de manera no invasiva. Se basa en la detección de los campos magnéticos generados por la actividad eléctrica cerebral. En combinación con la información estructural de la Resonancia Magnética Craneal o MRI (del inglés, Magnetic Resonance Imaging), proporciona un estudio cartográfico detallado de función cerebral de manera inocua para el paciente.

 

Se trata de una nueva tecnología de neuroimagen funcional cuya repercusión en la práctica clínica radica en la cumplimentación de los siguientes características:
 

  • Define la actividad cerebral en un intervalo de tiempo de milisegundos

  • Permite valorar la continuidad de secuencias temporales

  • Ubiqua cada una de estas activaciones en el espacio con precisión

  • Pueda repetirse sin que suponga un riesgo para la salud del paciente

  • Es sensible a cambios sutiles de la actividad cerebral

  • Supone un tiempo de exploracion del paciente (incluyendo la preparación al estudio) reducido.

La MEG es una técnica de imagen funcional no invasiva. Recoge los pequeños campos magnéticos asociados a la actividad eléctrica cerebral espontánea o evocada desde la superficie craneal, permitiendo calcular la localización de los generadores neuronales responsables de la actividad registrada y así monitorizar cambios en la actividad cerebral. La fusión de esta información funcional sobre las imágenes estructurales de Resonancia Magnética Craneal permite proporcionar una imagen funcional del cerebro.

El elemento diferencial de la MEG es que aporta una medida directa de la actividad electromagnética neuronal, combinando una resolución temporal de milisegundos (en tiempo real) con una resolución espacial de milímetros. La MEG es la única tecnología que supera las limitaciones de otras pruebas de diagnóctico funcional, todo ello desde la máxima inocuidad, ya que no es necesario siquiera la aplicación de electrodos, ni inyección de marcadores en el paciente. Así, las técnicas electromagnéticas como el EEG, presentan limitación en la localización de fuentes generadoras de actividad eléctrica; las técnicas hemodinámicas (PET, SPECT, fMRI) presentan una resolución temporal del orden de 1-5 segundos y una resolución espacial que depende de factores metabólicos y estructurales.

Esto significa que, en la evaluación de determinadas patologías cerebrales, los métodos de diagnóstico convencionales podrían aportar un diagnóstico incompleto o equivocado que redunda en tratamientos farmacológicos y/o quirúrgicos insatisfactorios que obligan a reintervención y realización de un sinfin de pruebas complementarias.

ACTIVIDADES DE APRENDIZAJE

1.- En base al material que en formato PDF se anexa, realice un mapa conceptual en el que determine las principales distinciones entre el EEG y la MGE.

2.- Descargue la siguiente imagen y tomando como base la que se muestra en esta página, ilumine las áreas cerebrales de la misma forma pero únicamente por cuanto corresponde a la MEG y a su vez indique de que estructuras se trata.

Las actividades deberán remitirse al correo: actividades@institutosuperiordeneurociencias.org a más tardar el día 7 de junio.

Contáctanos para brindarte cualquier apoyo que requieras.

Si envías mensaje a través del chat de esta página por favor indícanos tu nombre y correo.

Contáctanos