sábado, 14 de noviembre de 2015

estadística

 
métodos numéricos para la caracterización de variables 


medidas de localización: 

las medidas de localización dividen la distribución en pares iguales, sirven para clasificar a individuos o elementos dentro de una determinada población o muerta 


Media: X = Σ xi   
                          n


Mediana: Pares  12345678 → 4+5 
                                                           2


                     Impares 1234567 → 4


Moda: Datos que mas se repiten , pueden ser 3 formas   

  • Modales: números que se repiten una sola vez   → 1223456789
  • Bimodales: números que se repiten dos veces    →  12233456789
  • Multimodales: números que se repiten mas de dos veces 1223344556789
  • Amodales: Los números no tienes repeticiones  → 123456789

Percentiles: Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.

i = P    . n
     100

Deciles: Deciles son los 9 valores que dividen la serie de datos en 10 partes iguales.

i = P    . n
      10

Cuartiles: Son los 3 valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2, Q3 determinan los valores correspondientes al 25%, 50% y 75% de los datos.

Q1 = 25     . n

          100
Medidas de variabilidad 

Las medidas de variabilidad nos informan sobre el grado de concentración o dispersión que presentan los datos respecto a su promedio. Llamaremos homogénea, concentrada o poco dispersa a aquella distribución en la que todos los datos están cercanos al centro, como 4 4 5 5 5 5 6 6 6 6 7, y heterogénea o dispersa a la distribución con datos más separados del centro, como 1 3 5 8 10 16 20.


RANGO
También llamado Recorrido o Amplitud total, es la diferencia entre el máximo valor del conjunto de datos y el mínimo de ellos. A mayor rango, mayor dispersión.
El rango del conjunto 4 6 4 7 8 6 5 3 4 7 7 9 6 5 es 6, la diferencia entre el máximo 9 y el mínimo 3.
A veces se usa el Rango verdadero que consiste en considerar cada dato rodeado de una unidad, por efecto de los redondeos, con lo que en el ejemplo anterior el mínimo sería 2,5 y el máximo 9,5. Con ello el rango se convertiría en 7.
No es una medida buena, pues ignora todo lo que ocurre dentro de ese rango.



VARIANZA
Es una medida muy sensible de la variabilidad y base de muchas técnicas estadísticas.
Junto con la media forma el conjunto más importante de medidas.
Es propia de las medidas de intervalo o razón. Su inconveniente es que no usa la misma unidad que los datos, sino su cuadrado.
No se deben comparar varianzas en conjuntos de unidades muy distintas, como estatura e inteligencia.
En teoría del muestreo se sustituye por la cuasi-varianza, de idéntica fórmula, pero con cociente N-1 en lugar de N. En este caso no sería válida la segunda fórmula.



 DESVIACIÓN MEDIA
Es una medida de la dispersión consistente en la media aritmética de las desviaciones individuales respecto a la media, tomadas en valor absoluto. También se usan desviaciones respecto a la mediana.


DESVIACIÓN TÍPICA
Es la raíz cuadrada de la anterior. Su objeto es conseguir medir la variabilidad en las mismas unidades que los datos. Así, un conjunto medido en metros, tendrá la varianza medida en metros cuadrados, pero la desviación típica en metros.
Como en la varianza, para datos aislados basta con suprimir las frecuencias ni.
La desviación típica s es base de muchas técnicas, al igual que la media y la varianza. Su gran ventaja es estar medida en las mismas unidades que los datos y la media, lo que permite establecer razones y proporciones entre ellas.
 La desviación típica cumple la llamada desigualdad de Tchebychev: según la cual, los datos que se alejan de la media una distancia igual o menor que s, multiplicado por un coeficiente k suponen más de la proporción 1-1/k2. Así, el 75% de los datos al menos, se encuentra a menos de dos desviaciones típicas y el 89% a menos de tres.

la desviación estándar:  

es una medida de la variación de los valores con respecto a la medida. Es una especie de desviación promedio con respecto a la media. su formula es:
S=   √∑(x-X)2/n
Donde:
X= media
x=valores de los datos
n= numero de datos
∑= sumatoria
Nota:
° El valor de la desviacion estandar "s" es positivo. Resulta ser cero cuando todos los valores de los datos son el mismo número.
°El valor de la desviación estándar se puede incrementar de manera importante cuando se incluye uno o más datos distantes, es decir, datos que se encuentran muy lejos de los demás.
° las unidades "s" son las mismas de los datos originales.
PROCEDIMIENTO PARA CALCULAR LA DESVIACIÓN ESTÁNDAR:
1) Calcular el valor de la Media
2) Restar la media de cada valor individual para tener una lista de desviaciones de la forma (x-X)
3) elevar al cuadrado cada de las diferencias obtenidas en el paso anterior. Recuerda que al elevar al cuadrado un número negativo éste se vuelve positivo.  (x-X)2
4) Sumar todos los resultados obtenidos en el paso anterior el cual es: ∑(x-X)2
5)Dividir el total del paso 4 entre el número de datos n
6) Calcular la raíz cuadrada del resultado anterior


































































































































No hay comentarios:

Publicar un comentario