miércoles, 28 de noviembre de 2007

ESTADISTICA II

regresión lineal
La clase Regresion que describe la regresión lineal no difiere substancialmente de la clase Estadistica. La diferencia estriba en que los miembros datos son dos arrays x e y que guardan las series de valores X e Y, cuya dependencia funcional deseamos determinar. En los miembros dato públicos a y b se guarda la pendiente de la recta de regresión y la ordenda en el origen.
Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemática y no necesariamente de causalidad. Así, para un mismo número de unidades producidas, pueden existir niveles de costo, que varían empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la variable dependiente.
REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

estadistica II

El análisis de varianza es una prueba que nos permite medir la variación de las respuestas numéricas como valores de evaluación de diferentes variables nominales.

El Análisis de la Varianza puede contemplarse como un caso especial de la
modelización econométrica, donde el conjunto de variables explicativas son variables ficticias y la variable dependiente es de tipo continuo. En tales situaciones la estimación del modelo significa la realización de un análisis de la varianza clásica (ANOVA), de amplia tradición en los estudios y diseños experimentales. Una ampliación a este planteamiento es cuando se dispone de una variable de control que nos permite corregir el resultado del experimento mediante el análisis de la covariación con la variable a estudiar.

El analisis de la varianza (o Anova) es un metodo para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:
En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipotesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipotesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hipotesis nula, ningún estadístico supere el valor )acrítico es (1 - m, por lo tanto, la probabilidad de que alguno lo )asupere es 1 - (1 - m, que para valoresm. Una primera solución,a próximos a 0 es aproximadamente igual a ade denominada metodo de Bonferroni, consiste en bajar el valor /m, aunque resulta un método muy conservador.a, usando en su lugar ade
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.
El anova permite distinguir dos modelos para la hipótesis alternativa:Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras.Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de variación.En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.
Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco).
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo.
El coeficiente de correlación puede valer cualquier número comprendido entre -1 y +1.
· Cuando r=1, la correlación lineal es perfecta, directa.
· Cuando r=-1, la correlación lineal es perfecta, inversa
· Cuando r=0, no existe correlación alguna, independencia total de los valores X e Y

martes, 23 de octubre de 2007

INTERVALO DE CONFIANZA

Intervalo de confianza es un conjunto de valores obtenidos de la muestra para encontrar el parámetro poblacional
Nivel de confianza probabilidad que los números aparezcan dentro de la grafica.

Proporción - es un porcentaje que indica parte de la muestra que tiene una característica determinada.
Para obtener el tamaño de la muestra se debe definir cual va a ser el error estándar para obtener a partir de allí la varianza
Estimacion es un conjunto de tecnicas que permiten dar un vaor aproximado de un parametro de una poblacion a pàrtir de la muestra
Factores para determinar el tamaño de la muestra para estimar la media
-El nivel de confianza expresado en Z
-El máximo nivel de error permitido
-Variación de la población expresado en S
Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de la muestra, o bien disminuir la precisión de la estimación dando un tramo más amplio que el formado por el de extremos. Recíprocamente, si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo, entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor. Finalmente, si se quiere mejorar tanto la precisión como el nivel de confianza, hay que tomar una muestra suficientemente grande.

Objetivos de la determinación del tamaño adecuado de una muestra
-Estimar un parametro determinado con el nivel de confiza deseado.
-Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía.
-Reducir costes o aumentar la rapidez del estudio.
La estimación de parámetros consiste en el cálculo aproximado del valor de un parámetro en la población, utilizando la inferencia estadística, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de parámetros son necesarios los conceptos de Intervalo de confianza, variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α
Estimación de una proporción
Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios de la muestra (N) son:
Zα: valor de Z correspondiente al riesgo α fijado. El riesgo alfa fijado suele ser 0,025 y Z alfa de 1,96.
P: Valor de la proporción que se supone existe en la población.
i: Precisión con que se desea estimar el parámetro (2i es la amplitud del intervalo de confianza).
Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%
ERROR DE ESTIMACIÓN MÁXIMO Es el radio de anchura del intervalo de confianza.
Este valor nos dice en qué margen de la media muestral se encuentra la media poblacional al nivel de confianza asignado.

viernes, 19 de octubre de 2007

ESTADISTICA

La función del muestreo es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población.
El error de muestreo se denomina como el error que se comete debido al hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella.
Clases de muestreo:
Muestra aleatoria simple es aquella en que todas las mediciones de una poblacion tengan las mismas probabilidad de ser seleccionadas.
Muestreo Aleatorio Estratosférico es una muesra aleatoria que se obtiene separando los elementos de la población en grupos disjuntos, llamados estratos, y seleccionando una muetra aleatoria simple dentro de cada estrato.
Muestreo por Conglomerados se obtiene seleccionando aleatoriamente un conjunto de m colecciones de elementos muéstrales, llamados conglomerados, de la población y posteriormente llevando a cabo un censo completo en cada uno de los conglomerados.
Muestreo por Sistematica se ordenan en alguna forma alfabéticamente, por fechas se selecciona al azar el punto de partida luego se elige la muestra.