Monday 16 October 2017

Exemplos De Ambas Linear Regressão E O Mover Médias E Alisar Técnicas


Previsão por técnicas de suavização Este site é uma parte dos objetos de aprendizagem de JavaScript E-laboratórios para tomada de decisão. Outros JavaScript nesta série são classificados em diferentes áreas de aplicações na seção MENU nesta página. Uma série de tempo é uma seqüência de observações que são ordenadas no tempo. Inerente na coleta de dados levados ao longo do tempo é alguma forma de variação aleatória. Existem métodos para reduzir o cancelamento do efeito devido a variação aleatória. As técnicas amplamente utilizadas são suavização. Estas técnicas, quando devidamente aplicadas, revelam mais claramente as tendências subjacentes. Insira a série de tempo em ordem de linha em seqüência, começando pelo canto superior esquerdo e o (s) parâmetro (s) e, em seguida, clique no botão Calcular para obter uma previsão de um período antecipado. As caixas em branco não são incluídas nos cálculos, mas os zeros são. Ao inserir seus dados para mover de célula para célula na matriz de dados use a tecla Tab não seta ou digite chaves. Características de séries temporais, que podem ser reveladas ao examinar seu gráfico. Com os valores previstos, eo comportamento residual, modelagem de previsão de condições. Médias móveis: As médias móveis classificam-se entre as técnicas mais populares para o pré-processamento de séries temporais. Eles são usados ​​para filtrar o ruído branco aleatório dos dados, para tornar a série de tempo mais suave ou mesmo para enfatizar certos componentes informativos contidos na série de tempo. Suavização Exponencial: Este é um esquema muito popular para produzir uma Série de Tempo suavizada. Enquanto nas Médias Móveis as observações passadas são ponderadas igualmente, a Suavização Exponencial atribui pesos exponencialmente decrescentes à medida que a observação avança. Em outras palavras, as observações recentes recebem relativamente mais peso na previsão do que as observações mais antigas. O Double Exponential Smoothing é melhor para lidar com as tendências. Triple Exponential Smoothing é melhor no manuseio de tendências de parabola. Uma média móvel exponencialmente ponderada com uma constante de suavização a. Corresponde aproximadamente a uma média móvel simples de comprimento (isto é, período) n, onde a e n estão relacionados por: a 2 (n1) OR n (2 - a) a. Assim, por exemplo, uma média móvel exponencialmente ponderada com uma constante de suavização igual a 0,1 corresponderia aproximadamente a uma média móvel de 19 dias. E uma média móvel simples de 40 dias corresponderia aproximadamente a uma média móvel exponencialmente ponderada com uma constante de alisamento igual a 0,04878. Suavização Linear Exponencial de Holts: Suponha que a série de tempo não é sazonal, mas exibe tendência. Holts método estima tanto o nível atual ea tendência atual. Observe que a média móvel simples é caso especial da suavização exponencial, definindo o período da média móvel para a parte inteira de (2-Alpha) Alpha. Para a maioria dos dados de negócios, um parâmetro Alpha menor que 0,40 é freqüentemente efetivo. No entanto, pode-se realizar uma busca de grade do espaço de parâmetro, com 0,1 a 0,9, com incrementos de 0,1. Então o melhor alfa tem o menor erro médio absoluto (erro MA). Como comparar vários métodos de alisamento: Embora existam indicadores numéricos para avaliar a precisão da técnica de previsão, a abordagem mais abrangente é o uso de comparação visual de várias previsões para avaliar a sua precisão e escolher entre os vários métodos de previsão. Nesta abordagem, é necessário plotar (usando, por exemplo, Excel) no mesmo gráfico os valores originais de uma variável de série temporal e os valores previstos de vários métodos de previsão diferentes, facilitando assim uma comparação visual. Você pode gostar de usar as Previsões Passadas por Técnicas de Suavização JavaScript para obter os valores de previsão anteriores com base em técnicas de suavização que usam apenas um único parâmetro. Os métodos Holt e Winters usam dois e três parâmetros, respectivamente, portanto, não é uma tarefa fácil selecionar os valores ótimos, ou até perto de ótimos, por tentativa e erros para os parâmetros. A suavização exponencial única enfatiza a perspectiva de curto alcance que define o nível para a última observação e é baseada na condição de que não há tendência. A regressão linear, que se ajusta a uma linha de mínimos quadrados aos dados históricos (ou dados históricos transformados), representa a faixa de longo alcance, que está condicionada à tendência básica. Holts linear suavização exponencial captura informações sobre tendência recente. Os parâmetros no modelo de Holts são níveis-parâmetro que devem ser diminuídos quando a quantidade de variação de dados é grande, e as tendências-parâmetro devem ser aumentadas se a tendência de direção recente é suportada pelo causal alguns fatores. Previsão de Curto Prazo: Observe que cada JavaScript nesta página fornece uma previsão de um passo adiante. Para obter uma previsão de duas etapas. Basta adicionar o valor previsto ao final dos dados de séries temporais e, em seguida, clicar no mesmo botão Calcular. Você pode repetir este processo por algumas vezes para obter as previsões necessárias a curto prazo. Métodos de séries temporais Métodos de séries temporais são técnicas estatísticas que fazem uso de dados históricos acumulados durante um período de tempo. Os métodos da série temporal assumem que o que ocorreu no passado continuará a ocorrer no futuro. Como sugere a série temporal de nomes, esses métodos relacionam a previsão a apenas um fator - tempo. Eles incluem a média móvel, suavização exponencial e linha de tendência linear e estão entre os métodos mais populares para a previsão de curto prazo entre as empresas de serviços e de fabricação. Esses métodos pressupõem que padrões históricos identificáveis ​​ou tendências para a demanda ao longo do tempo se repetirão. Média móvel Uma previsão de séries de tempo pode ser tão simples como usar a demanda no período atual para prever a demanda no próximo período. Isso às vezes é chamado de previsão ingênua ou intuitiva. 4 Por exemplo, se a demanda é de 100 unidades esta semana, a previsão para as próximas semanas demanda é de 100 unidades, se a demanda acaba por ser 90 unidades, em seguida, as semanas seguintes demanda é de 90 unidades, e assim por diante. Esse tipo de método de previsão não leva em conta o comportamento histórico da demanda, que se baseia apenas na demanda no período corrente. Ele reage diretamente aos movimentos normais, aleatórios na demanda. O método de média móvel simples usa vários valores de demanda durante o passado recente para desenvolver uma previsão. Isso tende a atenuar, ou suavizar, os aumentos aleatórios e diminuições de uma previsão que usa apenas um período. A média móvel simples é útil para prever a demanda que é estável e não exibe qualquer comportamento de demanda pronunciado, como uma tendência ou padrão sazonal. As médias móveis são calculadas para períodos específicos, como três meses ou cinco meses, dependendo de quanto o meteorologista deseja suavizar os dados da demanda. Quanto mais longo for o período de média móvel, mais suave será. A fórmula para computar a média móvel simples é computar uma média movente simples A empresa instantânea da fonte do escritório do grampo do papel vende e entrega materiais de escritório às companhias, às escolas, e às agências dentro de um raio de 50 milhas de seu armazém. O negócio de suprimentos de escritório é competitivo, ea capacidade de entregar ordens prontamente é um fator para obter novos clientes e manter os antigos. (Os escritórios geralmente não exigem quando eles correm baixos suprimentos, mas quando eles acabam completamente fora. Como resultado, eles precisam de suas ordens imediatamente.) O gerente da empresa quer ser determinados drivers e veículos estão disponíveis para entregar ordens prontamente e Eles têm estoque adequado em estoque. Portanto, o gerente quer ser capaz de prever o número de pedidos que ocorrerão durante o próximo mês (ou seja, para prever a demanda por entregas). A partir de registros de ordens de entrega, a gerência acumulou os seguintes dados para os últimos 10 meses, a partir do qual pretende calcular média móvel de 3 e 5 meses. Vamos supor que é o fim de outubro. A previsão resultante da média móvel de 3 ou 5 meses é tipicamente para o próximo mês na seqüência, que neste caso é novembro. A média móvel é calculada a partir da demanda por ordens para os 3 meses anteriores na seqüência de acordo com a seguinte fórmula: A média móvel de 5 meses é calculada a partir dos dados de demanda de 5 meses anteriores como segue: A média móvel de 3 e 5 meses As projeções de média móvel para todos os meses de demanda são mostradas na tabela a seguir. Na verdade, apenas a previsão para novembro com base na demanda mensal mais recente seria usada pelo gerente. No entanto, as previsões anteriores para meses anteriores nos permitem comparar a previsão com a demanda real para ver quão preciso é o método de previsão - ou seja, quão bem ele faz. Médias de três e cinco meses As previsões de média móvel na tabela acima tendem a suavizar a variabilidade que ocorre nos dados reais. Este efeito de alisamento pode ser observado na seguinte figura em que as médias de 3 meses e 5 meses foram sobrepostas em um gráfico dos dados originais: A média móvel de 5 meses na figura anterior suaviza as flutuações em maior extensão do que A média móvel de 3 meses. No entanto, a média de 3 meses reflete mais de perto os dados mais recentes disponíveis para o gerente de suprimentos de escritório. Em geral, as previsões usando a média móvel de longo prazo são mais lentas para reagir às mudanças recentes na demanda do que aquelas feitas usando médias móveis de período mais curto. Os períodos extras de dados atenuam a velocidade com a qual a previsão responde. Estabelecer o número apropriado de períodos para usar em uma média móvel de previsão muitas vezes requer alguma quantidade de experimentação de tentativa e erro. A desvantagem do método da média móvel é que não reage a variações que ocorrem por uma razão, tais como ciclos e efeitos sazonais. Os fatores que causam mudanças são geralmente ignorados. É basicamente um método mecânico, que reflete dados históricos de forma consistente. No entanto, o método da média móvel tem a vantagem de ser fácil de usar, rápido e relativamente barato. Em geral, este método pode fornecer uma boa previsão para o curto prazo, mas não deve ser empurrado demasiado longe no futuro. Média Móvel Ponderada O método da média móvel pode ser ajustado para refletir mais de perto flutuações nos dados. No método da média móvel ponderada, os pesos são atribuídos aos dados mais recentes de acordo com a seguinte fórmula: Os dados de demanda para PM Computer Services (mostrados na tabela para o Exemplo 10.3) parecem seguir uma tendência linear crescente. A empresa quer calcular uma linha de tendência linear para ver se ela é mais precisa do que as previsões de suavização exponencial e de suavização exponencial ajustadas desenvolvidas nos Exemplos 10.3 e 10.4. Os valores necessários para os cálculos dos mínimos quadrados são os seguintes: Usando esses valores, os parâmetros para a linha de tendência linear são calculados da seguinte forma: Portanto, a equação da linha de tendência linear é: Para calcular uma previsão para o período 13, Linha de tendência: O gráfico a seguir mostra a linha de tendência linear em comparação com os dados reais. A linha de tendência parece refletir de perto os dados reais - isto é, ser um bom ajuste - e seria assim um bom modelo de previsão para esse problema. No entanto, uma desvantagem da linha de tendência linear é que ela não vai se ajustar a uma mudança na tendência, como os métodos de previsão de suavização exponencial, ou seja, é assumido que todas as previsões futuras seguirá uma linha reta. Isso limita o uso deste método para um período de tempo mais curto em que você pode ser relativamente certo de que a tendência não vai mudar. Ajustes Sazonais Um padrão sazonal é um aumento repetitivo e diminuição da demanda. Muitos itens de demanda apresentam comportamento sazonal. As vendas de vestuário seguem os padrões sazonais anuais, com a demanda por roupas quentes aumentando no outono e no inverno e diminuindo na primavera e no verão, à medida que aumenta a demanda por roupas mais frias. A demanda por muitos itens de varejo, incluindo brinquedos, equipamentos esportivos, vestuário, aparelhos eletrônicos, presuntos, perus, vinho e frutas, aumentam durante a temporada de férias. A demanda do cartão aumenta em conjunção com dias especiais como Dia dos Namorados e Dia das Mães. Padrões sazonais também podem ocorrer em uma base mensal, semanal ou mesmo diária. Alguns restaurantes têm demanda mais elevada na noite do que no almoço ou nos fins de semana ao contrário dos dias úteis. Tráfego - daí as vendas - em shopping centers pega na sexta-feira e sábado. Existem vários métodos para refletir padrões sazonais em uma previsão de séries temporais. Vamos descrever um dos métodos mais simples usando um fator sazonal. Um fator sazonal é um valor numérico que é multiplicado pela previsão normal para obter uma previsão ajustada sazonalmente. Um método para desenvolver uma demanda por fatores sazonais é dividir a demanda para cada período sazonal pela demanda anual total, de acordo com a seguinte fórmula: Os fatores sazonais resultantes entre 0 e 1,0 são, de fato, a parcela da demanda anual total atribuída a Cada estação. Esses fatores sazonais são multiplicados pela demanda anual prevista para produzir previsões ajustadas para cada estação. Calculando uma Previsão com Ajustes Sazonais A Wishbone Farms cria perus para vender a uma empresa de processamento de carne ao longo do ano. No entanto, sua alta temporada é obviamente durante o quarto trimestre do ano, de outubro a dezembro. A Wishbone Farms experimentou a demanda por perus nos últimos três anos, conforme mostrado na tabela a seguir: Como temos três anos de dados de demanda, podemos calcular os fatores sazonais dividindo a demanda trimestral total pelos três anos pela demanda total nos três anos : Em seguida, queremos multiplicar a demanda prevista para o ano seguinte, 2000, por cada um dos fatores sazonais para obter a demanda prevista para cada trimestre. Para conseguir isso, precisamos de uma previsão de demanda para 2000. Nesse caso, uma vez que os dados de demanda na tabela parecem exibir uma tendência geralmente crescente, calculamos uma linha de tendência linear para os três anos de dados na tabela para obter uma Estimativa de previsão: Assim, a previsão para 2000 é 58.17, ou 58.170 perus. Usando esta previsão anual de demanda, as previsões ajustadas sazonalmente, SF i, para 2000 são comparando essas previsões trimestrais com os valores de demanda reais na tabela, eles pareceriam ser estimativas de previsão relativamente boas, refletindo tanto as variações sazonais nos dados e Tendência ascendente geral. 10-12. Como o método da média móvel é semelhante ao alisamento exponencial 10-13. O efeito no modelo de suavização exponencial aumentará a constante de suavização 10-14. Como a suavização exponencial ajustada difere da suavização exponencial 10-15. O que determina a escolha da constante de suavização para a tendência em um modelo de suavização exponencial ajustado 10-16. Nos exemplos de capítulo para métodos de séries temporais, a previsão inicial foi sempre assumida como sendo a mesma da demanda real no primeiro período. Sugira outras maneiras de que a previsão inicial possa ser derivada no uso real. 10-17. Como o modelo de previsão da linha de tendência linear difere de um modelo de regressão linear para previsão 10-18. Dos modelos de séries temporais apresentados neste capítulo, incluindo a média móvel ea média móvel ponderada, a suavização exponencial ea suavização exponencial ajustada, ea linha de tendência linear, qual você considera o melhor Por que 10-19. Quais as vantagens que a suavização exponencial ajustada tem sobre uma linha de tendência linear para a demanda prevista que exibe uma tendência 4 K. B. Kahn e J. T. Mentzer, Forecasting in Consumer and Industrial Markets, The Journal of Business Forecasting 14, no. 2 (Verão 1995): 21-28.A análise de regressão linear é a mais utilizada de todas as técnicas estatísticas: é o estudo de linear. Aditivo entre variáveis. Seja Y a variável 8220dependent8221 cujos valores você deseja predizer, e deixe X 1. 8230, X k denotam as 8220 variáveis ​​independentes8221 das quais você deseja predizer, com o valor da variável X i no período t (ou na linha t do conjunto de dados) denotado por X it. Em seguida, a equação para calcular o valor previsto de Y t é: Esta fórmula tem a propriedade de que a previsão para Y é uma função de linha reta de cada uma das variáveis ​​X, mantendo as outras fixas e as contribuições de diferentes variáveis ​​X para a As previsões são aditivas. As inclinações de suas relações de linha reta individuais com Y são as constantes b 1. B2, 8230, bk. Os chamados coeficientes das variáveis. Isto é, b i é a mudança no valor predito de Y por unidade de mudança em X i. outras coisas sendo iguais. A constante adicional b 0. O chamado intercepto. É a previsão de que o modelo faria se todos os X 8217s fossem zero (se possível). Os coeficientes eo intercepto são estimados por mínimos quadrados. O que os torna iguais aos valores únicos que minimizam a soma dos erros quadráticos dentro da amostra de dados à qual o modelo está ajustado. E os erros de previsão de modelos são tipicamente assumidos como independentes e identicamente distribuídos normalmente. A primeira coisa que você deve saber sobre regressão linear é como o estranho regressão termo veio a ser aplicado a modelos como este. Eles foram primeiro estudados em profundidade por um cientista do século 19, Sir Francis Galton. Galton era naturalista auto-didata, antropólogo, astrônomo e estatístico - e um personagem da vida real Indiana Jones. Era famoso para suas explorações, e escreveu um livro best-seller em como sobreviver no deserto intitulado a arte do curso áspero: Do ​​material prático Para o Peculiar. quot Eles ainda estão em impressão e ainda considerado como recursos úteis. Eles fornecem muitas dicas úteis para permanecer vivo - como a forma de tratar feridas de lança ou extrair o seu cavalo de areia movediça - e introduziu o conceito do saco de dormir para o mundo ocidental. Galton foi um pioneiro na aplicação de métodos estatísticos para medições em muitos ramos da ciência, e ao estudar dados sobre tamanhos relativos de pais e seus descendentes em várias espécies de plantas e animais, ele observou o seguinte Fenômeno: um pai maior que a média tende a produzir uma criança maior do que a média, mas a criança provavelmente será menor do que a mãe em termos de sua posição relativa dentro de sua própria geração. Assim, por exemplo, se o tamanho dos pais for x desvios padrão da média dentro de sua própria geração, então você deve prever que o tamanho da criança será rx (r vezes x) desvios padrão da média dentro do conjunto de filhos desses pais , Onde r é um número menor que 1 em magnitude. (R é o que será definido abaixo como a correlação entre o tamanho do pai eo tamanho da criança). O mesmo é verdade para praticamente qualquer medida física (e no caso dos seres humanos, a maioria das medidas de capacidade cognitiva e física) Que pode ser realizada em pais e seus descendentes. Aqui está a primeira foto publicada de uma linha de regressão ilustrando este efeito, a partir de uma palestra apresentada por Galton em 1877: O símbolo R nesta carta (cujo valor é 0,33) denota o coeficiente de inclinação, não a correlação, embora os dois sejam os mesmos Se ambas as populações tiverem o mesmo desvio padrão, como será demonstrado abaixo. Galton denominou esse fenômeno como uma regressão para a mediocridade. Que em termos modernos é uma regressão à média. Para um observador naiumlve isso pode sugerir que as gerações posteriores vão exibir menos variabilidade - literalmente mais mediocridade - do que as anteriores, mas isso não é caso. É um fenômeno puramente estatístico. A menos que cada criança seja exatamente igual ao tamanho do pai em termos relativos (isto é, a menos que a correlação seja exatamente igual a 1), as previsões devem regressar à média, independentemente da biologia, se o erro quadrático médio for minimizado. (Regressar ao topo da página.) A regressão à média é um fato incontornável da vida. Espera-se que seus filhos sejam menos excepcionais (para melhor ou pior) do que você. Sua pontuação em um exame final em um curso pode ser esperado para ser menos bom (ou ruim) do que a sua pontuação no exame de meio termo, em relação ao resto da classe. Um jogador de beisebol que bate a média na segunda metade da estação pode ser esperado ser mais perto da média (para todos os jogadores) do que sua média de rebatida na primeira metade da estação. E assim por diante. Isto não significa que é certo que haverá regressão à média, mas essa é a maneira de apostar. Já vimos uma sugestão de regressão-para-a-média em alguns dos modelos de previsão de séries temporais Temos estudado: as parcelas de previsões tendem a ser mais Eles apresentam menor variabilidade - do que as parcelas dos dados originais. Isso não é verdade em modelos randômicos aleatórios, mas é geralmente verdade para modelos de média móvel e outros modelos que baseiam suas previsões em mais de uma observação passada. A explicação intuitiva para o efeito de regressão é simples: a coisa que estamos tentando prever geralmente consiste em um componente previsível (quotsignalquot) e um componente imprevisível estatisticamente independente (quotnoisequot). O melhor que podemos esperar é prever (somente) aquela parte da variabilidade que é devido ao sinal. Assim, as nossas previsões tendem a apresentar menos variabilidade do que os valores reais, o que implica uma regressão para a média. Outra maneira de pensar no efeito de regressão é em termos de viés de seleção. Em geral, a performance de um jogador em qualquer período de tempo pode ser atribuída a uma combinação de habilidade e sorte. Suponhamos que selecionamos uma amostra de atletas profissionais cujo desempenho foi muito melhor do que a média (ou os alunos cujas notas foram muito melhores do que a média) no primeiro semestre do ano. O fato de que eles fizeram tão bem na primeira metade do ano torna provável que tanto a sua habilidade e sua sorte foram melhores do que a média durante esse período. Na segunda metade do ano, podemos esperar que eles sejam igualmente hábeis, mas não devemos esperar que eles sejam igualmente sorte. Portanto, devemos prever que na segunda metade do seu desempenho será mais próximo da média. Enquanto isso, os jogadores cujo desempenho foi meramente média no primeiro semestre provavelmente tinha habilidade e sorte trabalhando em direções opostas para eles. Portanto, devemos esperar que seu desempenho na segunda metade se afaste da média em uma direção ou outra, à medida que obtemos outro teste independente de sua habilidade. Nós não sabemos em que direção se moverão, no entanto, por isso, mesmo para eles, devemos prever que o desempenho do segundo semestre estará mais próximo da média do que o desempenho do primeiro semestre. No entanto, o desempenho real dos jogadores deve ter uma variação igualmente grande no segundo semestre do ano, como no primeiro semestre, porque ele meramente resulta de uma redistribuição de sorte aleatória entre os jogadores com a mesma distribuição de habilidade como antes. Uma boa discussão sobre a regressão à média no contexto mais amplo da pesquisa em ciências sociais pode ser encontrada aqui. (Voltar ao topo da página.) Justificativa para pressupostos de regressão Por que devemos assumir que as relações entre as variáveis ​​são lineares. Porque as relações lineares são as relações não-triviais mais simples que podem ser imaginadas (daí o mais fácil de trabalhar), e. Porque as relações quottruequot entre as nossas variáveis ​​são muitas vezes, pelo menos, aproximadamente linear sobre a gama de valores que são de interesse para nós, e. Mesmo que eles não sejam, podemos muitas vezes transformar as variáveis ​​de forma a linearizar as relações. Esta é uma suposição forte, eo primeiro passo na modelagem de regressão deve ser olhar para scatterplots das variáveis ​​(e no caso de dados de séries temporais, gráficos das variáveis ​​em função do tempo), para se certificar de que é razoável a priori. E depois de montar um modelo, as parcelas dos erros devem ser estudadas para ver se existem padrões não lineares inexplicados. Isto é especialmente importante quando o objetivo é fazer previsões para cenários fora do intervalo dos dados históricos, onde partidas de linearidade perfeita são susceptíveis de ter o maior efeito. Se você vê evidências de relações não-lineares, é possível (embora não garantido) que as transformações de variáveis ​​irão endireitá-las de forma a produzir inferências e previsões úteis por meio de regressão linear. (Voltar ao início da página.) E por que devemos supor que os efeitos de diferentes variáveis ​​independentes sobre o valor esperado da variável dependente são aditivos. Esta é uma suposição muito forte, mais forte do que a maioria das pessoas percebe. Isso implica que o efeito marginal de uma variável independente (isto é, seu coeficiente de inclinação) não depende dos valores atuais de outras variáveis ​​independentes. Porém, por que não se poderia imaginar que uma variável independente pudesse amplificar o efeito de outra, ou que seu efeito pudesse variar sistematicamente ao longo do tempo. Num modelo de regressão múltipla, o coeficiente estimado de uma dada variável independente supostamente mede seu efeito enquanto controla a presença dos outros. No entanto, a maneira como o controle é executado é extremamente simplista: múltiplos de outras variáveis ​​são meramente somados ou subtraídos. Muitos usuários apenas lançam muitas variáveis ​​independentes no modelo sem pensar cuidadosamente sobre esse problema, como se o software deles descobrisse automaticamente como eles estão relacionados. Mesmo os métodos de seleção automática de modelos (por exemplo, regressão gradual) exigem que você tenha uma boa compreensão de seus próprios dados e use uma mão guia na análise. Eles trabalham apenas com as variáveis ​​que são dadas, na forma que são dadas, e então eles olham apenas para linear, padrões aditivos entre eles no contexto de cada outro. Um modelo de regressão não se limita a supor que Y é função quádrupla dos Xs. Ele assume que é um tipo muito especial de função dos Xs. Uma prática comum é incluir variáveis ​​independentes cujos efeitos preditivos logicamente não podem ser aditivos, digamos, alguns que são totais e outros que são taxas ou porcentagens. Às vezes, isso pode ser racionalizado por argumentos locais de aproximação de primeira ordem, e às vezes não pode. Você precisa coletar os dados relevantes, entender o que mede, limpá-lo se necessário, realizar análise descritiva para procurar padrões antes de ajustar qualquer modelo, e estudar os testes de diagnóstico de pressupostos do modelo depois, especialmente estatísticas e gráficos dos erros. Você também deve tentar aplicar o raciocínio econômico ou físico apropriado para determinar se uma equação de predição aditiva faz sentido. Aqui também, é possível (mas não garantido) que as transformações de variáveis ​​ou a inclusão de termos de interação possam separar seus efeitos em uma forma aditiva, se eles não têm essa forma para começar, mas isso requer algum pensamento e esforço sobre Sua parte. (Voltar ao topo da página.) E por que devemos assumir que os erros de modelos lineares são independentemente e identicamente distribuídos normalmente. 1. Este pressuposto é muitas vezes justificado por recurso ao Teorema de Limite Central das estatísticas, que afirma que a soma ou média de um número suficientemente grande de variáveis ​​aleatórias independentes - quaisquer que sejam suas distribuições individuais - se aproxima de uma distribuição normal. Muitos dados em negócios e economia e engenharia e as ciências naturais é obtido pela adição ou média de medições numéricas realizadas em muitas pessoas diferentes ou produtos ou locais ou intervalos de tempo. Na medida em que as atividades que geram as medições podem ocorrer de forma aleatória e de certa forma independente, podemos esperar que as variações nos totais ou médias sejam um pouco distribuídas normalmente. 2. É (novamente) matematicamente conveniente: implica que as estimativas de coeficientes ótimos para um modelo linear são aquelas que minimizam o erro quadrático médio (que são facilmente calculadas), e justifica o uso de uma série de testes estatísticos com base na Família normal de distribuições. (Esta família inclui a distribuição t, a distribuição F ea distribuição Chi-quadrada.) 3. Mesmo que o processo de erro quottruequot não seja normal em termos das unidades originais dos dados, pode ser possível transformar os dados assim Que os erros de previsão de seus modelos são aproximadamente normais. Mas aqui também a cautela deve ser exercida. Mesmo que as variações inexplicadas na variável dependente estejam aproximadamente distribuídas normalmente, não é garantido que elas também serão identicamente distribuídas normalmente para todos os valores das variáveis ​​independentes. Talvez as variações inexplicadas sejam maiores em algumas condições do que outras, uma condição conhecida como quoteteroscedasticidade. Por exemplo, se a variável dependente consiste de vendas diárias ou mensais totais, provavelmente há padrões significativos no dia-de-semana ou padrões sazonais. Nesses casos, a variância do total será maior em dias ou em épocas com maior atividade comercial - outra conseqüência do teorema do limite central. (As transformações variáveis, tais como o registro e / ou o ajuste sazonal, são freqüentemente usadas para lidar com esse problema). Também não é garantido que as variações aleatórias sejam estatisticamente independentes. Esta é uma questão especialmente importante quando os dados consistem em séries temporais. Se o modelo não for corretamente especificado, é possível que erros consecutivos (ou erros separados por algum outro número de períodos) tenham uma tendência sistemática para ter o mesmo sinal ou uma tendência sistemática de ter sinais opostos, fenômeno conhecido como quota-correlação ou Correlação quotérica. Um caso especial muito importante é o dos dados sobre os preços das ações. Em que variações percentuais em vez de mudanças absolutas tendem a ser normalmente distribuídas. Isso implica que, em escalas de tempo moderadas a grandes, os movimentos nos preços das ações são lognormally distribuídos em vez de normalmente distribuídos. Uma transformação do registro é aplicada tipicamente aos dados históricos do preço da ação ao estudar o crescimento ea volatilidade. Atenção: embora modelos de regressão simples sejam freqüentemente ajustados a retornos históricos de estoque para estimar quotbetas, que são indicadores de risco relativo no contexto de uma carteira diversificada, eu não recomendo que você use a regressão para tentar prever retornos futuros de ações. Veja a página de caminhada aleatória geométrica em vez disso. Você ainda pode pensar que as variações nos valores das carteiras de ações tenderiam a ser normalmente distribuídas, em virtude do teorema do limite central, mas o teorema do limite central é, na verdade, bastante lento para morder a distribuição lognormal porque é tão assimetricamente longo - Atado Uma soma de 10 ou 20 variáveis ​​independentemente e identicamente lognormally distribuídas tem uma distribuição que é ainda bastante próximo a lognormal. Se você não acredita nisso, tente testá-lo pela simulação de Monte Carlo: você ficará surpreso. (I was.) Uma vez que os pressupostos de regressão linear (linear, relações aditivas com iid erros normalmente distribuídos) são tão fortes, é muito importante para testar a sua validade quando os modelos de montagem, um tema discutido em mais detalhes sobre o modelo de teste - Página de suposições. E estar alerta para a possibilidade de que você pode precisar de mais ou melhores dados para realizar seus objetivos. Você não pode obter algo do nada. Com demasiada frequência, os usuários naiumlve de análise de regressão vê-lo como uma caixa preta que pode prever automaticamente qualquer variável dada de qualquer outra variável que são alimentados para ele, quando na verdade um modelo de regressão é um tipo muito especial e muito transparente de caixa de previsão. Sua saída não contém mais informação do que é fornecida por suas entradas, e seu mecanismo interno precisa ser comparado com a realidade em cada situação em que é aplicado. Correlação e fórmulas de regressão simples Uma variável é, por definição, uma quantidade que pode variar de uma medida para outra em situações em que são retiradas amostras diferentes de uma população ou em observações feitas em diferentes momentos. Ao ajustar modelos estatísticos em que algumas variáveis ​​são usadas para prever outras, o que esperamos encontrar é que as diferentes variáveis ​​não variam de forma independente (em termos estatísticos), mas tendem a variar em conjunto. Em particular, ao montar modelos lineares, esperamos encontrar que uma variável (digamos, Y) está variando como uma função de linha reta de outra variável (digamos, X). Em outras palavras, se todas as outras variáveis ​​possivelmente relevantes pudessem ser mantidas fixas, esperamos encontrar o gráfico de Y em relação a X como uma reta (além dos inevitáveis ​​erros aleatórios ou quotnoisequot). Uma medida da quantidade absoluta de variabilidade em uma variável é (naturalmente) sua variância. Que é definido como seu desvio quadrático médio de sua própria média. Equivalentemente, podemos medir a variabilidade em termos do desvio padrão. Que é definida como a raiz quadrada da variância. O desvio padrão tem a vantagem de ser medido nas mesmas unidades que a variável original, em vez de unidades quadradas. Nossa tarefa na previsão de Y pode ser descrita como a de explicar alguma ou toda sua variância - isto é. porque . Ou em que condições, ela se desvia de sua média? Por que não é constante? Ou seja, gostaríamos de ser capazes de melhorar o modelo preditivo ingénuo: 374 t CONSTANTE, em que o melhor valor para a constante é presumivelmente a média histórica De Y. Mais precisamente, esperamos encontrar um modelo cujos erros de predição sejam menores, em um sentido quadrático médio, do que os desvios da variável original de sua média. Ao usar modelos lineares para predição, resulta muito conveniente que as únicas estatísticas de interesse (pelo menos para fins de estimativa de coeficientes para minimizar o erro quadrático) sejam a média ea variância de cada variável e o coeficiente de correlação entre cada par de variáveis. O coeficiente de correlação entre X e Y é comumente denotado por r XY. E mede a força da relação linear entre eles em uma escala relativa (ou seja, sem unidade) de -1 para 1. Ou seja, mede a extensão em que um modelo linear pode ser usado para prever o desvio de uma variável de sua média Dado o conhecimento dos outros desvio de sua média no mesmo ponto no tempo. O coeficiente de correlação é mais facilmente calculado se padronizarmos as variáveis, o que significa convertê-las em unidades de desvio-padrão da média, usando o desvio padrão da população em vez do desvio padrão da amostra, ou seja, usando a estatística cuja fórmula Tem n em vez de n-1 no denominador, onde n é o tamanho da amostra. A versão padronizada de X será denotada aqui por X. E seu valor no período t é definido na notação do Excel como: onde STDEV. P é a função do Excel para o desvio padrão da população. (Aqui e em outro lugar eu vou usar funções do Excel em vez de símbolos matemáticos convencionais em algumas das fórmulas para ilustrar como os cálculos seriam feitos em uma planilha). Por exemplo, suponha que PRÉMIO (X) 20 e STDEV. P (X ) 5. Se X t 25, então X t 1, se X t 10. então X t -2, e assim por diante. Y indicará o valor uniformemente padronizado de Y. Agora, o coeficiente de correlação é igual ao produto médio dos valores padronizados das duas variáveis ​​dentro de uma dada amostra de n observações: Assim, por exemplo, se X e Y são armazenados em colunas Em uma planilha, você pode usar as funções AVERAGE e STDEV. P para calcular suas médias e desvios padrão da população, então você pode criar duas novas colunas nas quais os valores de X e Y em cada linha são calculados de acordo com a fórmula acima. Em seguida, crie uma terceira nova coluna em que X é multiplicado por Y em cada linha. A média dos valores na última coluna é a correlação entre X e Y. Naturalmente, no Excel, você pode apenas usar a fórmula CORREL (X, Y) para calcular um coeficiente de correlação, onde X e Y indicam os intervalos de células de Os dados para as variáveis. (Nota: em algumas situações pode ser de interesse padronizar os dados relativos ao desvio padrão da amostra, que é STDEV. S no Excel, mas a estatística da população é a correta para usar na fórmula acima.) (Voltar para parte superior Se as duas variáveis ​​tendem a variar nos mesmos lados de seus respectivos meios ao mesmo tempo, então o produto médio de seus desvios (e, portanto, a correlação entre eles) será positivo. Uma vez que o produto de dois números com o mesmo sinal é positivo. Inversamente, se eles tendem a variar em lados opostos de seus respectivos meios ao mesmo tempo, sua correlação será negativa. Se eles variam independentemente em relação aos seus meios - ou seja, se é igualmente provável que esteja acima ou abaixo de sua média independentemente do que o outro está fazendo - então a correlação será zero. E se Y é uma função linear exata de X, então Y t X t para todo t ou então Y t - X t para todo t. Caso em que a fórmula para a correlação se reduz a 1 ou -1. Pode-se dizer que o coeficiente de correlação mede a força da relação linear entre Y e X pela seguinte razão. A equação linear para predizer Y de X que minimiza o erro quadrático médio é simplesmente: Assim, se X for observado como sendo 1 desvio padrão acima de sua própria média, então devemos prever que Y será r XY desvios padrão acima de sua própria média se X É 2 desvios-padrão abaixo de sua própria média, então devemos prever que Y será 2 r XY desvios-padrão abaixo de sua própria média, e assim por diante. Em termos gráficos, isso significa que, em um diagrama de dispersão de Y versus X. A linha para prever Y de X de modo a minimizar o erro quadrático médio é a linha que passa pela origem e tem a inclinação r XY. Este fato não é suposto ser óbvio, mas é facilmente provado pelo cálculo diferencial elementar. Aqui está um exemplo: em um diagrama de dispersão de Y versus X. O eixo visual de simetria é uma linha que passa pela origem e cuja inclinação é igual a 1 (ou seja, uma linha de 45 graus), que é a linha tracejada cinza no gráfico abaixo. Ele passa pela origem porque os meios de ambas as variáveis ​​padronizadas são zero e sua inclinação é igual a 1 porque seus desvios padrão são ambos iguais a 1. (Esse último fato significa que os pontos são igualmente espalhados horizontalmente e verticalmente em termos de Significa desvio quadrático de zero, o que força seu padrão a aparecer aproximadamente simétrica em torno da linha de 45 graus se a relação entre as variáveis ​​é realmente linear.) No entanto, a linha tracejada cinza não é a melhor linha para usar para prever o valor de Y para um dado valor de X. A melhor linha para prever Y a partir de X tem uma inclinação de menos de 1: ela regride em direção ao eixo X. A linha de regressão é mostrada em vermelho, e sua inclinação é a correlação entre X e Y. que é 0,46 neste caso. Por que isso é verdade Porque, esse é o caminho para apostar se você quiser minimizar o erro quadrático médio medido na direção Y. Se, em vez disso, você quisesse predizer X de Y de modo a minimizar o erro quadrático médio medido na direção X, a linha regressaria na outra direção em relação à linha de 45 graus e exatamente pela mesma quantidade. Se queremos obter a equação de regressão linear para predizer Y de X em termos não padronizados. Basta substituir as fórmulas para os valores padronizados na equação precedente, que então se torna: Reorganizando esta equação e coletando termos constantes, obtemos: é a inclinação estimada da linha de regressão e é o intercepto Y estimado do linha. Observe que, como dissemos anteriormente, os coeficientes na equação linear para predizer Y de X dependem apenas das médias e desvios padrão de X e Y e de seu coeficiente de correlação. As fórmulas adicionais que são necessárias para calcular erros padrão. T-estatísticas. E os valores de P (estatísticas que medem a precisão e a significância dos coeficientes estimados) são dados nas notas sobre matemática da regressão simples e também ilustrados neste arquivo de planilha. A correlação positiva perfeita (r XY 1) ou correlação negativa perfeita (r XY -1) só é obtida se uma variável for uma função linear exata da outra, sem erro, caso em que não são, de modo algum, variáveis ​​muito diferentes. Em geral, encontramos uma correlação menos que perfeita, ou seja, encontramos que r XY é menor que 1 em valor absoluto. Portanto, nossa previsão para Y é tipicamente menor em valor absoluto do que o nosso valor observado para X. Ou seja, a previsão para Y é sempre mais próxima de sua própria média, em unidades de seu próprio desvio padrão, do que X foi observado para ser, que é Galtons fenômeno de regressão para a média. Assim, a explicação técnica do efeito de regressão à média depende de dois fatos matemáticos: (i) o coeficiente de correlação, calculado da maneira descrita acima, é o coeficiente que minimiza o erro quadrático na previsão de Y de X . E (ii) o coeficiente de correlação nunca é maior que 1 em valor absoluto, e é apenas igual a 1 quando Y é uma função linear exata (sem ruído) de X. O termo quotregressão está preso e até se transformou de um verbo intransitivo em um transitivo desde o tempo de Galton. Nós não dizemos meramente que as previsões para Y regressão ao meanquot - nós agora dizemos que estamos quotregressing Y em X quot quando nós estimamos uma equação linear para prever Y de X. e nós nos referimos a X como um quotregressor neste caso. Quando temos um modelo de regressão linear, podemos calcular a variância de seus erros e comparar isso com a variância da variável dependente (sendo esta última a variância de erro de um modelo somente de interceptação). A quantidade relativa pela qual a variância do erro dos modelos de regressão é menor que a variância da variável dependente é referida como a fração da variância que foi explicada pela (s) variável (s) independente (s). Por exemplo, se a variância de erro é 20 menos que a variância original, dizemos que temos quotexplained 20 da variância. Acontece que em um modelo de regressão simples, a fração de variância explicada é precisamente o quadrado do coeficiente de correlação - Eu O quadrado de r. Assim, a fração de variância explicada passou a ser conhecida como quotR-quadrado. A interpretação e o uso de R-quadrado são discutidos em mais detalhe aqui. Num modelo de regressão múltipla (um com duas ou mais variáveis ​​X), existem muitos coeficientes de correlação que devem ser calculados, além de todas as médias e variâncias. Por exemplo, devemos considerar a correlação entre cada variável X ea variável Y, bem como a correlação entre cada par de variáveis ​​X. Neste caso, ainda se verifica que os coeficientes do modelo ea estatística explicada por fração de variância podem ser calculados inteiramente a partir do conhecimento das médias, desvios-padrão e coeficientes de correlação entre as variáveis ​​- mas os cálculos não são mais fáceis . Vamos deixar esses detalhes para o computador. (Voltar ao início da página.) Vá para um tópico próximo:

No comments:

Post a Comment