Resumen del libro “estadística aplicada básica”
Fuente: “Estadística aplicada básica” de David S. Moore (hasta la pág. 71)
1. Cosas básicas
1.1 Relación entre dos variables: tasas, razón y proporción.
1.1.1 ejemplos
1.1.2 críticas
1.2 Tipos de variables y distribución
1.2.1 dibujar un histograma
1.2.2 simetría y asimetría
1.3 Medidas de la distribución
1.3.1 La Media
1.3.2 La Mediana
1.4 Medidas de Dispersión: cuartiles y demás i-les
1.4.1 Diagrama de caja
1.5 Medidas de Dispersión: varianza y desviación estandar
1.5.1 grados de libertad (n-1), la cuasivarianza
1.5.2 explicación de grado de libertad con ejemplos
1.6 Distribuciones normales
1.6.1 Ejemplo de distribución normal
1.6.2 ¿para qué sirve la distribución normal? la estandarización
.
1. Cosas básicas
1.1 Relaciones entre dos variables
Se expresaría como “¿cuánto hay de X en Y?”. Es una de las formas más sencillas de estádistica para hacernos una idea de la relación entre dos variables.
La tasa se utiliza junto a medidas de tiempo, temperatura o presión, y se le añade un multiplicador para hacer más visual su resultado.
La razón sirve para comparar cuántos Y suceden cuando tenemos un X.
La proporción ofrece un resultado en tanto por ciento.
1.1.1 Ejemplos
En españa hay 44.108.000 habitantes, en 2005 se dieron 1295 casos de legionelosis en todo el país, de los cuales 83 en andalucía y 11 en canarias.
Tasa: ¿cuántas personas sufrieron legionelosis en españa por cada 100.000 habitantes?
1295/44.108.000 = 0.00002.93 … x 100.000 = 2.93 personas por cada 100.000 sufrieron legionelosis en España en 2005
Razón: ¿cuántos casos de legionelosis hay en canarias por cada caso de andalucía?
83/11 = 7.54 casos de legionelosis en andalucia por cada 1 dado en canarias.
Proporción: ¿cuántos casos de legionelosis hay en andalucía en relación al total de casos en españa?
83/1295 = 0.064 … x 100 = el 6.4% de los casos de legionelosis en España se declararon en andalucia.
1.1.2 Críticas
- Hay que valorar el entorno y si una tercera variable está condicionando los datos
- Hay que exigir una buena obtención de los datos
- Las circunstancias del entorno que provocan siempre variaciones y nunca nos permite ser categóricos con los resultados (p.ej. no se puede decir que andalucía siempre tendrá más casos de legionelosis).
1.2 Tipos de variables
Existen las variables categóricas que indican a qué grupo o categoría pertenece un individuo, por ejemplo el sexo, su nivel de estudios, su procedencia,… Las variables cuantitativas toman valores numéricos y tiene sentido hacer operaciones aritméticas como sumas y medias.
Otro concepto a destacar es el distribución: nos dice qué valores toma una variable y con qué frecuencia. Si miro la distribución de la edad en mi grupo de clase, seguramente la variable “Guillermo” -yo- tiene valor “30″ y frecuencia “1″, porque dudo que haya otro tan viejo. Si tuviera los datos de toda la clase podría hacer un análisis exploratorio de datos; mediante diagramas de barras (en cada barra tendremos el número de individuos dentro de la categoría) o diagrama de sectores (en un círculo que representa el 100%, cada sector es un “quesito” que indica la importancia relativa respecto el total).
1.2.1 Como dibujar un histograma
Hay que dividir el recorrido de la variable (edad) en espacios de igual amplitud (1 año), contar cuántos individuos encajan en cada categoría, y dibujar cada barra por el número de individuos contados. Por ahora ya se puede indicar cuál es el centro de una distribución; encontrando su punto medio tal que la mitad de las observaciones son menores que él mismo y la otra mitad mayores (es una forma primitiva de definir la mediana), y la dispersión de la muestra será dar los valores mínimos y máximos registrados (el más joven y el más viejo de la clase). Una observación típica será encontrar que la barra más alta coincide con el punto medio (con la mediana). Una observación atípica será encontrar una barra que destaca sobre las demás (porque es muy alta y está en un extremo, o porque está en el centro y es muy baja) y habrá que buscar una explicación.
1.2.2 Simetría y asimetría
El histograma es simetrico cuando tiene forma de U invertida. Si el lado derecho se extiende más que el lado izquierdo será asimétrico hacia la derecha (hay mucha gente joven entorno los 20, pero un montón de viejos que se extienden desde los 25 hasta los 65). Si es al revés, la asimetría es hacia la izquierda.
Los datos que incluyen muchas variables, como la altura de los individuos de una región, genera datos simétricos. Un estudio sobre la distribución de la renta en el mundo generaría un histograma asimétrico hacia la derecha; hay mucha población con escasa renta, unos pocos con algo de renta, muy pocos con mucha renta.
Un diagrama de tallo y hojas (steam and leaf plot) permite ver de forma rápida la distribución de una serie;
En este ejemplo tenemos que la distribución de la variable se concentra en el tramo de 35 a 39, donde hay 16 observaciones.
1.3 Medidas de la distribución
Son formas matemáticas de conseguir información relevante sobre la distribución de una variable.
1.3.1 La media
La media o media aritmética es una herramienta que nos permite encontrar “el centro” sobre el gira una observación. Es el punto donde se concentra mayor número de individuos, la zona de mayor peso,… Su cáculo es la suma de valores dividido por el número de observaciones.
Ejemplo: Supongamos que en la clase somos 30 alumnos, todos de 20 años menos yo con 30, la media = (20*29+30)/30 = la media de edad será 20,3.
Crítica: como se ve, esta herramienta es susceptible a los datos extremos. Si hay 29 alumnos de 20 años y sólo uno de 30, la edad más habitual es 20, y no 20,3 que ni siquiera está presente en la muestra. Por esto se dice que la media no es una medida robusta del centro.
1.3.2 La mediana
La mediana es lo que divide en dos una autopista. Y también lo que divide en dos una muestra. Es coger y ordenar las variables de menos a más, y elegir exactamente el punto intermedio; el sujeto situado en el 50% de la muestra. Su valor es el valor de la mediana. En el ejemplo de esos 30 alumnos, la mediana saldrá de colocar a todos por orden de edad, y elegir el situado en el 50%. Ante la duda se puede aplicar la fórmula
En el ejemplo: (30+1)/2 = 15,5. Aquí lo que sucede es que la muestra n=par, con lo que hay dos sujetos en el punto central de la muestra n. ¿y cuál es la mediana? es la media artimética de ambos. (20+20)/2 = 20… la mediana del ejemplo es 20, porque el individuo -o individuos- situado en el punto centra de la muestra tiene edad = 20.
Más clarito, ¿cuál es el individuo central de la siguiente muestra?
A B C = la muestra es impar (3 individuos)
3+1 / 2 = 2. Hay que contar “dos” sobre la muestra,
A B C = “B” es el valor que condensa el 50% de la muestra, deja la misma cantidad de individuos por cada lado.
y ahora?
A B C D E F G H I J = la muestra es par (10)
10+1 / 2 = 5.5
A B C D E F G H I J = “E” y “F” están en el centro, buscamos la media de ambos (E+F)/2 y ese será el valor de la mediana.
1.4 Medidas de dispersión: cuartiles, y demás i-les
Con la Media y la Mediana, comparándolas entre ambas, podemos hacernos una idea de si la muestra está centrada o no. Es decir; si estas medidas son representativas. En el ejemplo de la clase y las edades, la mediana es más representativa que la media. Pero hasta ahora esto se basa en una percepción subjetiva. ¿Puedo demostrarlo objetivamente? Pues sí: las medidas de dispersión me permiten analizar “lo que hay alrededor” de la mediana. Esto son los cuartiles. Y nace de buscar la mediana de la mediana (en su parte inferior, y superior). En el ejemplo anterior:
A B C D E = aquí la mediana es C porque dejaba 2 individuos por cada parte.
A B C D E = la mediana de la mediana de C es la media de A,B, y luego la media de D,E.
A B C D E F G H I J = La mediana es la media de E y F
A B C D E F G H I J = los cuartiles son la mediana B,C y H, I
Esto se puede hacer tantas veces como se quiera. Se pueden buscar los cuartiles (que parten la muestra en 4 trozos del 25% cada uno; el primer cuartil es igual al valor que acumula el primer 25% de la muestra, el segundo cuartil acumula el 50%, el tercero el 75% y el último cuartil es el valor = 100%), se puede buscar los quintiles (parten la muestra en 5 trozos del 20% cada uno), los deciles (10 partes del 10%) y los percentiles (100 partes del 1%).
Ejemplo: Recuerdo que en una prueba que me hicieron en el instituto en el apartado de “cálculo” quedé en el percentil 93. O sea, si se colocase toda la muestra de estudiantes de menos a más, yo tenía la nota 93% mejor. Y sólo tenía un 7% por encima de mí. Estaría en el decil 9, en el quintil 4, en el cuartil 3. No diré cómo me quedó la de “gramática” que me da vergüenza.
1.4.1 Diagrama de caja
El gráfico o dibujo que mejor nos muestra la posición de los cuartiles es el diagrama de caja. Ahí con facilidad se ve el mínimo, el primer cuartil, la mediana (o segundo cuartil), el tercer cuartil, y el valor máximo.
Aquí en este han dibujado casos atípicos por encima y por debajo de los límites, pero a este nivel como si no existieran.
1.5 Medidas de dispersión: varianza y desviación estandar.
Son dos medidas que están relacionadas porque la desviación estandar es una forma fácil de entender la varianza. Resulta que yo puedo buscar en qué medida los datos orbitan en torno a la media. Esto lo conseguiría midiendo la distancia de las variables respecto a la media, sumarlas, y dividirlo por el número de individuos. Esto me debería dar un valor que sería “cuánto se suelen alejar los resultados de la media”. El problema está en que es un valor muy elevado e inútil… si estoy midiendo alturas de un grupo de individuos que tienen de media 180 centímetros, la varianza puede ser 400. Esta cifra no es útil… ¿400 centímetros? Lo que ha pasado es que para que la suma de bajitos (valores negativos; por debajo de la media) y de los más altos (valores positivos; por encima de la media) no se compense y me de = cero, la solución pasa por elevar la suma al cuadrado.
Elevar al cuadrado es útil no sólo porque todo los valores serán positivos, sino también porque los valores altos sobresaldrán extraordinariamente. No es lo mismo diferenciar 25 de 75, una distancia de 50… que 25² a 75², entre ambos valores hay una distancia de 5.000..!!
La fórmula de la varianza es, como he dicho, sumatorio de la distancia de cada variable respecto a la media, al cuadrado, y dividido por la muestra.
Aunque una forma más fácil de hacer este cálculo es
¿Y la desviación estandar? Sencillamente es la raíz cuadrada de la varianza (como se ve su símbolo es sigma al cuadrado). Así que desviación estandar es

En el ejemplo he dicho que de una muestra de individuos con media 180 centímetros de altura, la varianza es = 400 cm². ¿cuántos centímetros se suelen desviar los individuos de la media? 20 centímetros. Y se debería leer como “más/menos” 20 centímetros. Es decir, en esta muestra con media 180 cm, es normal encontrarse con individuos entre metro sesenta (160) y los dos metros (200). Y más abajo y más arriba de estos valores son casos extremos. La desviación estandar y la media son especialmente útiles en el estudio de distribuciones simétricas sin observaciones atípicas; distribuciones normales.
1.5.1 Grados de libertad, (n-1), la cuasivarianza
En algunos lugares se calcula la varianza -y de rebote la desviación estandar- dividiendo el sumatorio por (n-1) en lugar de por n. ¿Cuál es la diferencia? La diferencia es el concepto de que si sumamos todas las diferencias respecto la media (sin elevar al cuadrado) el resultado final debe ser = cero. Pero la última variación se puede conocer si sabemos todas las demás variaciones. Solamente n-1 de las desviaciones al cuadrado pueden variar libremente. Algo que está muy bien explicado aquí: http://es.wikipedia.org/wiki/Grado_de_libertad, y MARAVILLOSAMENTE aquí! Y en un sentido más aplicado aquí. Cuando se usa n-1 en lugar de n, se denomina cuasivarianza, y es que cuando queremos encontrar la varianza de una población a partir de una muestra, el error es más pequeño al usar n-1.
1.5.2 Explicación de grados de libertad con ejemplos.
Imagina que tenemos una muestra de 18 individuos (n=18), con una media de peso = 65 kilos. Sin nada más… ¿cuántos grados de libertad hay? Pues como no tengo ningún dato más, resulta que el peso de los 18 individuos puede variar libremente con tal de que la media sea 65 kilos.
¿y si aseguro que hay un individuo que tiene un peso de 70 kilos? Ahora resulta que tenemos una restricción; hay un dato fijo, invariable, no-libre, y el número de grados de libertad que restan es = muestra – nº de restricciones; 18-1 = 17. Porque tenemos que el peso de los 17 individuos restantes puede variar libremente.
Otra forma de verlo: es el número de datos que son libres de variar para que a un total fijo -p.ej. una media- se pueda reconstruir dicho total.
Otra más: imagina que te organizas una cita con doce chicas/os distintos, con una altura media de 1,70 metros. No sabes cuánto mide cada una excepto cuando te las encuentras. En la primera cita tomas nota de la altura de la primera chica, en la segunda tomas nota de la segunda… cuando llegas a la once tienes todos los datos para completar la muestra. Porque todas las alturas anteriores y la de que aún no has visto, debe cumplir una media = 1,70. Tendrías una ecuación con una sóla incógnita que no puede variar! que no es libre! que está determinada por el resto de datos que le envuelven!
Por esto se dice que las situaciones básicas (como este ejemplo) tienen libertad = n-1. En este caso tendríamos 11 grados de libertad.
¿Y qué es bueno y qué es malo?
Imagina que seguimos en ese ejemplo de 12 personas con media = 1,70 de altura. ¿puedo considerar que la varianza y la desviación estandar que tenga la muestra es similar a la de la población? Es decir, ¿la muestra está próxima a la población? Esto se cumple cuando la muestra es muy grande, mucho, casi casi tan grande como si en lugar de una muestra tuviéramos una n=población total. De entrada se sigue cumpliendo que “grados de libertad = n-1″ porque necesito calcular la altura del penúltimo para que me aparezca fijada la altura del último individuo (n-1). Pero lo que sucede es que cuando los grados de libertad son muchos, casi tendiendo a infinito, más real será la muestra, en tanto que será más fiel a la realidad.
Así, cuántos menos grados de libertad, más dispersa puede ser la muestra. Cuántos más grados de libertad, menos dispersión, y más proximidad a la figura de una distribución normal.
1.6 Distribuciones normales
Son aquellas que tienen forma de U invertida.
Una propiedad de la curva de densidad es que su área es = 1 porque está acaparando todas las observaciones. En el punto cero se situa la media y la mediana (!), y a su izquierda/derecha deja el 50% de las observaciones, que cumplen la proporción 0.5 + 0.5 = el área = 1. Asímismo, los cuartiles cortan la curva de densidad en cuatro trozos cumpliendo con la proporción 0.25 + 0.25 + 0.25 +0.25 = 1. Es decir; una cuarta parte del área por debajo de la curva queda a la izquierda del primer cuartil, y tres cuartas partes del área quedan a la izquierda del tercer cuartil.
La mediana divide el área en dos mitades iguales, y la media es donde se concentra el “punto de equilibrio” de la muestra. Cuando la distribución no es normal, entonces no coinciden.
1.6.1 Ejemplo de distribución normal
Supongamos una muestra de n individuos, con media = 1,70 metros y desviación estandar = 0,20 metros (20cm).
a)La media (x) se situa en el centro de la curva de densidad.
b) Un 34.13% de la población está entre la media y la media+desviación. Son los individuos con altura comprendida entre 1.70 y 1.90.
c) un 34.13+13.59= 47.72% de la población está entre la media y la media+2*desviaciones. Son los individuos entre 1.70 y 2.10.
d) el 49.86% son individuos entre 1.70 y 2.30.
e) un 0.135% son individuos por encima de la altura 2.30.
f) todo lo mismo se puede hacer “hacia abajo”; el 34.13% de la población está entre la media y la media-desviación. Individuos entre 1.70 y 1.50
g) OJO. El 68.26% de la población (34.13+34.13) está en la media +- 1 desviación estandar. Individuos entre 1.50 y 1.90
h) el 95.44% de la población está entre 1.30 y 2.10.
i) el 99.72% está situado en la media +- 3 veces la desviación estandar.
j) etc…

1.6.2 ¿y para qué sirve la distribución normal? La estandarización.
La normalidad aparece en la naturaleza cuando un fenómeno se repite infinidad de veces. Si se mide tamaño de animales, producción de cereales, altura de individuos, lanzamientos de un dado, etc, al cabo de infinitas repeticiones/observaciones la distribución sigue el dibujo de una normal. Muchos datos reales se explican de este modo. Por lo tanto, si conseguimos que un estudio estadístico se amolde a las condiciones de normalidad, más rigor tendrá.
Una forma de expresar cómo o de qué manera está situado un valor dentro de una población, es mediante la estandarización. La estandarización indica a qué distancia se encuentra el valor respecto a la media, y nos da la distancia en términos de desviación estandar. Por ejemplo, en la población de media = 1,70 metros y desviación estandar = 0,20, ¿Qué valor estandar tiene un sujeto con altura 1,80? Hay que relacionar este dato con la media y con la desviación estandar;
Z = (1.80-1.70)/0.2 = 0.5.
Esto significa que un individuo de metro ochenta está 0.5 veces la desviación estandar por encima de la media. Está por encima porque el valor es positivo, si hubiera dado negativo se interpreta como que el individuo está por debajo de la media en X veces la desviación estandar. Así, por distribución normal estandarizada se entiende una distribución N(0,1)… es decir, que cumple
N = una distribución normal
0 = tiene media situada en el cero de la distribución (media y mediana coinciden)
1 = la distancia de las desviaciones estandar. (la forma de la curva cumple los porcentajes indicados en 1.6.1)
.










porque no lo publican como pdf y aplicando mas ejercicios