Statistically Insignificant

Languages, Statistics and other things

Introduction to Mendelian Randomization


Mendelian Randomization is an approach to test for a causal effect from observational data in the presence of certain confounding factors. It uses the measured variation of genes (of known function) to bound the causal effect of a modifiable exposure (environment) on a phenotype (disease). The fundamental idea is that the genotypes are randomly assigned (due to recombination in meiosis under certain assumptions), and this allows them to be used as an instrumental variable.

Here is the Directed Acyclic Graph (DAG) for the basic set-up. Here G is the observed genotype (i.e. the presence of a SNP), X is an environmental exposure, U is a (possible) unobserved confounder and Y is the phenotype (i.e. disease status). This will be explained in detail later.


Mendelian Randomization is a useful technique precisely because it allows for causal inference from observational data. Randomised Control Trials (RCTs) are the gold standard for causal inference, but is not always ethical or possible to carry out RCTs. For example, we cannot randomly assign a lifetime of heavy smoking (or non-smoking) to groups of individuals. This leads to a need to use observational data, however this requires many assumptions.

Instrumental Variables (IVs)

In the previous DAG, G is the instrumental variable (or instrument), because it affects Y only through X (that is, exclusively, no other path may exist). Therefore, under certain assumptions (to be explained later), if G is correlated with Y then we can infer the edge X -> Y (note that X must be correlated with G).

Now we will consider an example application of instrumental variables, for a hypothetical investigation of the effect of smoking on lung cancer.

If the assumptions of the instrumental variable method are met, then if we observe that an increase in tax leads to a reduction in lung cancer, then one can infer that smoking is a "cause" of lung cancer (though perhaps indirectly, i.e. it's not smoking directly that causes cancer but the build-up of tar in the lungs, etc.).

Assumptions of the Instrumental Variables method

Assumptions are necessary in all areas of statistics, however it is important to know what assumptions we are making and whether they hold true.

Z -> X must exist

We must know a priori that the causal direction is Z -> X and not X -> Z. This is what makes the causal structure unique and identifiable. Note this does not mean that Z has to be the "true" cause of X. For example, if Z is a SNP, we can choose a SNP in linkage disequilibrium with Z, so long as it is independent of all of the other variables, but still correlated with X. Note the more correlated that Z is with X, the better the power will be (i.e. less data required for significant results), if it is not correlated, it cannot be used as an instrumental variable.

Z must be independent of U

No factor can affect both the instrument and the effects. For example, there cannot be a factor that causes both higher tobacco taxes and less cancer (e.g. if we were comparing rates in different cancers between countries, national health awareness could be such a factor).

No Z -> Y

Z cannot directly affect Y (or indirectly, except through X). I.e. there cannot exist any other mechanisms through which Z affects Y (i.e. high tobacco tax increases substance abuse, leading to higher rates of cancer).


Faithfulness is the assumption that the true underlying DAG will manifest itself in the observed data - that is, that the causal effects will not cancel out. This is a reasonable assumption, because the contrary would require very specific parameters.

However, note that if relations are deterministic, the implied conditional independencies of the DAG do not hold true, and the assumption of faithfulness is violated. But we will not concern ourselves with this.

Also note that, in practice, the sample size is very important in testing the significance of the correlations/independencies in the data.

Summary of assumptions

This DAG summarizes the necessary assumptions for the use of instrumental variables:

Mendelian Randomization

The method of Mendelian Randomization was first introduced in: Apolipoprotein E isoforms, serum cholesterol, and cancer., Katan MB (1986).

At the time, epidemiologists were wondering whether low serum cholesterol levels increase the risk of cancer. They were known to be correlated, but it could be that latent tumors caused the lower cholesterol levels (i.e. reverse causation), or that both cancer risk and cholesterol levels were affected by another factor, such as diet (i.e. confounding).

However, Katan noticed that patients with Abetalipoproteinemia (a genetic disease that leads to the inability to absorb cholesterol), did not appear predisposed to cancer, despite the predisposition to lower levels of serum cholesterol.

This led Katan to the idea of finding a large group of individuals genetically predisposed to lower cholesterol levels. These individuals are assumed to be the same with respect to other possible confounders (social class, etc.) and so the presence of the cholesterol-affecting allele can be used as an instrumental variable - this is Mendelian Randomization.

The Apolipoprotein E (ApoE) gene was known to affect serum cholesterol, with the ApoE2 variant being associated with lower levels. Many individuals carry ApoE2 variant and so have lower serum cholesterol levels from birth.

Since genes are randomly assigned during meiosis (due to recombination), ApoE2 carriers should not be different from ApoE carriers in any other way (diet, etc.), so there is no confounding via the genome - note these are assumptions. It is this which allows the genotype to be used as an instrumental variable in this way (because it is akin to an intervention in a Randomised Control Trial).

Therefore if low serum cholesterol is really causal for cancer risk, the cancer patients should have more ApoE2 alleles than the controls - if not then the levels would be similar in both groups.

Katan only provided the suggestion, but the method has since been used for many different analyses with some success, such as the link between blood pressure and stroke risk. However, some conclusions have later been disproved by Randomised Control Trials. To understand why, we must consider the biological assumptions.

Biological Assumptions


Recall the assumption that the genotype is randomly assigned - this implies panmixia. That is, there is no selective breeding (so random mating). This implies that all recombination of alleles is possible.

In our DAG, this means that G is not influenced by Y (or any other variables). However, this assumption is not always entirely accurate, as demonstrated by Population Stratification

Population Stratification

Population Stratification is the systematic difference in allele frequencies between subpopulations, due to ancestry. For example, physical separation leads to non-random mating. This then leads to different genetic drift in different subpopulations (i.e. changes in allele frequency over time due to repeated random sampling).

This means that the genotype is not randomly assigned when considered across different sub-populations, a good example of this is with the difference in rates of lactose intolerance between Northern Europe and Asia.


Canalization refers to the variation in the robustness of phenotypes to changes in the genotype and environment.

The classic example is Waddington's Drosophilia experiment. In the experiment, Drosophilia pupae were exposed to heat shock (i.e. a rapid increase in temperature). Eventually a Cross-veinless phenotype (no cross-veins in wings) was produced. However, by then selectively breeding the resulting flies for this phenotype, it eventually appears without heat shock.

This led to theory of organisms rolling downhill in to "canals" of the epigenetic landscape with development, becoming more robust to variation of the environment. We can think of it like an optimization problem which settles in local minima.

The exact biological/molecular mechanisms of canalization are still unknown. With regards to Mendelian Randomization, it can act as a confounder between the genotype, environment and phenotype.

No Pleiotropy

Pleiotropy is the phenomena whereby one gene can affect many (even seemingly unrelated) phenotypes. Mendelian Randomisation makes the assumption of no pleiotropy.

In this case, this means that we assume the genotype is only influencing the phenotype via the considered exposure. I.e. ApoE2 only affects serum cholesterol levels, and cannot affect cancer risk by other, unobserved means.

This is a big assumption, and prior knowledge is necessary. If possible, using multiple, independent SNPs which act through the same path, can help to alleviate this issue, because, if they are all consistent then it is unlikely that they would all have other pathways causing the same change in phenotype. But note that they must be independent, and so cannot be in Linkage Disequilibrium.

The real DAG?

Considering the above points, perhaps the true underlying DAG looks more like this:


Instrumental variables are a method to infer causal relations from observational data, given certain assumptions.This method is applied in Genetic Epidemiology with Mendelian Randomisation.

This approach has had some success, but the underlying biology still poses some problems with regards to the necessary assumptions. This leaves us with the following questions:

  • Can we improve the robustness of the inference with more measurements of intermediate phenotypes? (such as gene methylation, RNAseq, proteomics measurements, etc.)?
    Some work has been done on this under the name of multi-step Mendelian Randomisation.

  • Can we improve identification of appropriate instruments? (e.g. as whole genome sequencing makes it easier to identify population stratification)



La aleatorización mendeliana es un método para confirmar un efecto causal de datos observacionales, posiblemente en la presencia de factores de confusión.

El método utiliza la discrepancia medida de genes (de funciones ya sabidas) para limitar la influencia causal de una exposición (por ej. el ambiente) en un fenotípo (por ej. una enfermedad). La idea fundamental es que los genotípos son asignados aleatoriamente (por la recombinación durante la meiosis), y esto permita que se puede ser utilizados como variables instrumentales.

Aquí hay el grafo acíclico dirigido (DAG en inglés) de la idea fundamental. G es el genotipo observado (o sea, la presencia de un SNP), X es una exposición ambiente, U es un (posible) factor de confusión escondido y Y es el fenotipo (o sea, el estado de la enfermedad). Se explica esto en detalle más adelante.


La aleatorización mendeliana es una técnica útil porque permita la inferencia causal de datos observacionales. Pruebas controladas aleatorias son el patrón para hacer la inferencia causal, pero no siempre está posible o etíca hacerlas. Por ejemplo, no podemos asignar aleatoriamente una vida de fumar (o no fumar) a personas. Este problema significa que necesitamos usar los datos observacionales (que podemos colectar), sin embargo, hacer esto requiere muchas suposiciones.

Variables Instrumentales (IVs)

En el DAG anterior, G es la variable instrumental (o sea, el instrumento), porque afecta Y sólo por su influencia en X (o sea, exclusivamente - nada otros caminos existen). Por lo tanto, bajo suposiciones específicas (que voy a ser explicadas más adelante), si G está en correlación con Y, podemos inferir que la arista X -> Y debe existir (nota que X debe estar en correlación con G para ser usado como variable instrumental.)

Ahora consideramos un ejemplo de la aplicación de las variables instrumentales, en una investigación hipotética de la relación entre el fumar y el cancer de pulmón.

Asumiendo que las suposiciones del método son correctas, si observamos que an aumento del impuesto causa una reducción en la frecuencia de cáncer de pulmón, podríamos inferir que fumar es una "causa" de cáncer de pulmón (pero quizá indirectamente, o sea, no sería fumar que causa el cáncer directamente sino la acumulación del alquitrán en los pulmones, etc.)

Suposiciones del método de variables instrumentales

Suposiciones son necesarias en todos las partes de la estadística, sin embargo, es muy importante saber cuáles suposiciones necesitamos y si son correctas.

Z -> X debe existir

Debemos saber a priori que la dirección causal es Z -> X y no X -> Z. Es por eso que podemos identificar la estructura causal únicamente.Nota que eso no significa que Z debe ser la causa "verdadera" de X. Por ejemplo, si Z es un SNP (Polimorfismo de nucleótido simple - o sea, una mutación en una sola base), podemos también elegir un SNP que está en desequilibrio de ligamiento (o sea, son heredados juntos) con Z, con tal de que sea independiente de todas las otras variables, pero todavía esté en correlación con X. Nota que cuánto más que Z está en correlación con X, mejor será el poder estadístico (o sea, necesitaríamos menos datos para resultados significados), y si Zb> no está en correlación con X, no se puede ser usado como una variable instrumental.

Z debe ser independiente de U

No se permite que nada factor afecten ambos el instrumento y los efectos. Por ejemplo, no puede ser que haya un factor que causa ambos un aumento en los impuestos de tabaco y indices bajados de cáncer (por ejemplo, si comparamos los indices de un tipo de cáncer entre países diferentes, la conciencia salud nacional puede ser un factor así).

No Z -> Y

No se permite que Z afecte Y directamente (o indirectamente, excepto a través de X). O sea, no deben existir nada más mecanismos, a través de que Z afecte Y (por ejemplo, si el aumento en el impuesto de tabaco causara un aumento en los indices del abuso de sustancias, y por eso, un aumento en los indices de cáncer).

Condición de Fidelidad

La condición de Fidelidad es la suposición que la verdadero DAG se manifestará en los datos observados - o sea, los efectos causales no se neutralizarán. Esta es una suposición creíble, porque lo contrario necesitaría parámetros muy específicos.

Sin embargo, nota que si las relaciones son deterministas, las independencias condicionales que el DAG supone no más son correctas, y la condición de Fidelidad es violada. Pero ahorita eso no nos interesa.

Además, nota que en practica, el tamaño de la muestra es muy importante para probar la significación de las correlaciones estadísticas y independencias en los datos.

Resumen de las suposiciones

Este DAG muestra las suposiciones necesarias para usar el método de variables instrumentales:

Aleatorización mendeliana

El método de aleatorización mendeliana fue presentado primeramente en Apolipoprotein E isoforms, serum cholesterol, and cancer., Katan MB (1986).

En ese tiempo, los epidemiólogos se preguntaban si niveles bajos de colesterol en suero podrían aumentar el riesgo de cáncer. Se sabía que estaban en correlación, pero puede ser que tumores latentes causaran los niveles más bajos de colesterol (o sea, causalidad inversa), o que ambos el riesgo de cáncer y los niveles de colesterol eran afectados por otro factor, como la dieta (o sea, hay factores de confusión).

Sin embargo, Katan notó que los pacientes de Abetalipoproteinemia (una enfermedad genética que causa la incapacidad para absorber colesterol) no se parecen predispuestos al cáncer, a pesar de la predisposición a niveles más bajos de colesterol en suero.

Este hecho condujo Katan a la idea de encontrar un grupo grande de individuos que son predispuestos genéticamente a niveles más bajos de colesterol. Se asume que estes individuos son iguales con respecto a todos los factores posibles de confusión (por ej. clase social, etc.) así que la presencia del alelo que afecta el nivel de colesterol puede ser usado como una variable instrumental - esta idea es la aleatorización mendeliana.

El gen Apolipoprotein E (ApoE) era conocido afectar los niveles de colesterol en suero, la variante ApoE2 vinculada con niveles más bajos. Muchos individuos tienen la variante ApoE2 y por eso tienen niveles más bajos de colesterol en suero desde el nacimiento.

Porque los genes son asignados aleatoriamente durante la meiosis (por la recombinación), los portadores del alelo ApoE2 no debería ser diferente de los portadores del alelo ApoE en nada otras formas (la dieta, etc.), por eso no hay nada confusión por el genoma - pero, nota que esas son suposiciones. Es por eso que se permite usar el genotipo como una variable instrumental (porque es como una intervención en una prueba controlada aleatoria).

Por eso, si niveles bajos de colesterol en suero causan un aumento en el riesgo de cáncer, los pacientes de cáncer deberían tener una frecuencia del alelo ApoE2 más alta que el grupo de control. Si la relación no es causal, los niveles serían aproximadamente iguales en ambos grupos.

Katan sólo dio la sugerencia, pero el método ha sido usado en muchos análisis con unos éxitos, como la relación entre la presión arterial y el riesgo de derrames cerebrales. Sin embargo, unas conclusiones han sido incorrectas (cuando han sido probadas por pruebas controladas aleatorias). Para entender la razón, tenemos que pensar en las suposiciones biológicas.

Suposiciones biológicas


Recuerda la suposición que el genotipo es asignado aleatoriamente - esto supone panmixia. Panmixia significa que no hay reproducción selectiva (o sea, la reproducción es aleatoria). Esto significa que todas recombinaciones de los alelos son posibles.

En nuestro DAG, esto significa que G no es influido por Y (o nada más variables). Sin embargo, esta suposición no es siempre verdadera, como demuestra la fenómeno de la estratificación genética.

Estratificación genética

La estratificación genética es la discrepancia sistemática en la frecuencia de los alelos entre subpoblaciones diferentes, por sus ascendencias. Por ejemplo, la separación física da lugar a reproducción no aleatoria. Esto da lugar a la deriva genética en las subpoblaciones diferentes (o sea, cambios en la frecuencia de los alelos con el tiempo por muestreo aleatorio repetido).

Esto significa que el genotipo no es asignado aleatoriamente cuando es considerado entre las subpoblaciones diferentes. Un buen ejemplo de este fenómeno es la discrepancia en los indices de la intolerancia a lactosa entre el norte de Europa y Asia.


Canalización se refiere al cambio en la robustez de los fenotipos a cambios en el genotipo y el ambiente.

El ejemplo clásico es el experimento de Waddington con pupas de drosophila. En este experimento, las pupas de drosophila fueron expuestos a choque térmico (o sea, un aumento rápido en la temperatura). Con el tiempo, un fenotipo con anormalidades apareció. Sin embargo, por criar selectivamente estas moscas que tuvo este fenotipo, con el tiempo el fenotipo aparece sin exposición a choque térmico.

Este experimento da lugar a la teoría de los organismos rodando abajo en "canales" del paisaje epigenético durante el desarrollo, se haciendo más resistente contra cambios en el ambiente. Se puede ser considerado como un problema de optimización, en que la solución queda en mínimos locales.

Los mecanismos precisos de canalización aún no son sabidos. Con respecto a la aleatorización mendeliana, puede ser un factor de confusión entre el genotipo, el ambiente y el fenotipo.

No Pleiotropía

La pleiotropía es el fenómeno por el cual un solo gen puede afectar muchos fenotipos. La aleatorización mendeliana requiere la suposición que no hay nada pleiotropía.

En este caso, signifíca que tenemos que suponer que el fenotipo sólo influye el fenotipo a través de la exposición considerado (por ej. ApoE2 sólo afecta los niveles de colesterol en suero, y no puede afectar el riesgo de cáncer por otros medias desconocidos).

Esta es una gran suposición, y conocimiento previo es necesario justificarla. Si es posible, usar SNPs independientes múltiples que actúan por el mismo camino puede ayudar mitigar este problema, porque si todos son consecuentes, es muy improbable que todos tendrían otros caminos para causar el mismo cambio en fenotipo. Pero nota que los SNPs deben ser independientes, y por eso, no pueden estar en desequilibrio de ligamiento.

¿El DAG verdadero?

Considerando los puntos anteriores, tal vez el grafo real parezca así:


Las variables instrumentales son un método para inferir relaciones causales de datos observacionales, bajo unas suposiciones. Este método es aplicado en la epidemiología genética a través de la aleatorización mendeliana.

Este método ha tenido éxito, pero la biología subyacente todavía plantea unos problemas con respecto a las suposiciones necesarias. Esto nos deja las preguntas siguientes:

  • ¿Podemos mejorar la robustez de la inferencia con más medidas de fenotipos intermedios (como la metilación genética, RNAseq, medidas de la proteomíca, etc.)?
    Algún trabajo ha sido hecho en este problema bajo el nombre de "multi-step Mendelian Randomization" (aleatorización mendeliana por etapas múltiples).

  • ¿Podemos mejorar la identificación de instrumentos apropriados? (por ej. la posibilidad de la secuenciación del genoma entero ha hecho más fácil identificar la estratificación genética)