5. Bootstrap conteo
Conteo rápido
En México, las elecciones tienen lugar un domingo, los resultados oficiales del proceso se presentan a la población una semana después. A fin de evitar proclamaciones de victoria injustificadas durante ese periodo el INE organiza un conteo rápido. El conteo rápido es un procedimiento para estimar, a partir de una muestra aleatoria de casillas, el porcentaje de votos a favor de los candidatos en la elección.
En este ejercicio deberás crear intervalos de confianza para la proporción de votos que recibió cada candidato en las elecciones de 2006. La inferencia se hará a partir de una muestra de las casillas similar a la que se utilizó para el conteo rápido de 2006.
El diseño utilizado es muestreo estratificado simple, lo que quiere decir que:
se particionan las casillas de la pablación en estratos (cada casilla pertenece a exactamente un estrato), y
dentro de cada estrato se usa muestreo aleatorio para seleccionar las casillas que estarán en la muestra.
En este ejercicio (similar al conteo rápido de 2006):
Se seleccionó una muestra de \(7,200\) casillas
La muestra se repartió a lo largo de 300 estratos.
La tabla
strata_sample_2006
contiene en la columna \(N\) el número total de casillas en el estrato y en \(n\) el número de casillas que se seleccionaron en la muestra, para cada estrato:
library(estcomp)
strata_sample_2006
#> # A tibble: 300 x 3
#> stratum n N
#> <dbl> <int> <int>
#> 1 1 20 369
#> 2 2 23 420
#> 3 3 24 440
#> 4 4 31 570
#> 5 5 29 528
#> 6 6 37 664
#> 7 7 26 474
#> 8 8 21 373
#> 9 9 25 457
#> 10 10 24 430
#> # … with 290 more rows
- La tabla
sample_2006
en el paqueteestcomp
(vuelve a instalar de ser necesario) contiene para cada casilla:- el estrato al que pertenece:
stratum
- el número de votos que recibió cada partido/coalición:
pan
,pri_pvem
,panal
,prd_pt_convergencia
,psd
y la columnaotros
indica el número de votos nulos o por candidatos no registrados. - el total de votos registrado en la casilla:
total
.
- el estrato al que pertenece:
sample_2006
#> # A tibble: 7,200 x 11
#> polling_id stratum edo_id rural pri_pvem pan panal prd_pt_conv psd otros
#> <int> <dbl> <int> <dbl> <int> <int> <int> <int> <int> <int>
#> 1 74593 106 16 1 47 40 0 40 0 9
#> 2 109927 194 27 0 131 10 0 147 1 8
#> 3 112039 199 28 0 51 74 2 57 2 2
#> 4 86392 141 20 1 145 64 2 139 1 14
#> 5 101306 176 24 0 51 160 0 64 14 1
#> 6 86044 140 20 1 150 20 0 166 1 11
#> 7 56057 57 15 1 117 119 2 82 0 24
#> 8 84186 128 19 0 118 205 8 73 9 13
#> 9 27778 283 9 0 26 65 5 249 7 2
#> 10 29892 289 9 0 27 32 0 338 14 7
#> # … with 7,190 more rows, and 1 more variable: total <int>
Una de las metodolgías de estimación, que se usa en el conteo rápido, es estimador de razón y se contruyen intervalos de 95% de confianza usando el método normal con error estándar bootstrap. En este ejercicio debes construir intervalos usando este procedimiento.
Para cada candidato:
- Calcula el estimador de razón combinado, para muestreo estratificado la fórmula es:
\[\hat{p}=\frac{\sum_h \frac{N_h}{n_h} \sum_i Y_{hi}}{\sum_h \frac{N_h}{n_h} \sum_i X_{hi}}\] donde:
\(\hat{p}\) es la estimación de la proporción de votos que recibió el candidato en la elección.
\(Y_{hi}\) es el número total de votos que recibió el candidato en la \(i\)-ésima casillas, que pertence al \(h\)-ésimo estrato.
\(X_{hi}\) es el número total de votos en la \(i\)-ésima casilla, que pertence al \(h\)-ésimo estrato.
\(N_h\) es el número total de casillas en el \(h\)-ésimo estrato.
\(n_h\) es el número de casillas del \(h\)-ésimo estrato que se seleccionaron en la muestra.
- Utiliza bootstrap para calcular el error estándar, y reporta tu
estimación del error.
- Genera 1000 muestras bootstrap.
- Recuerda que las muestras bootstrap tienen que tomar en cuenta la metodología que se utilizó en la selección de la muestra original, en este caso, lo que implica es que debes tomar una muestra aleatoria independient dentro de cada estrato.
- Construye un intervalo del 95% de confianza utilizando el método normal.
Repite para todos los partidos (y la categoría otros). Reporta tus intervalos en una tabla.