Zweck: Überprüfung der Zufallszahlen Autokorrelationsdiagramme (Box und Jenkins, S. 28-32) sind ein gängiges Werkzeug zur Überprüfung der Zufälligkeit in einem Datensatz. Diese Zufälligkeit wird durch Berechnen von Autokorrelationen für Datenwerte bei variierenden Zeitverzögerungen ermittelt. Wenn sie zufällig sind, sollten solche Autokorrelationen nahezu null für irgendwelche und alle zeitlichen Verzögerungen sein. Wenn nicht-zufällig, dann werden eine oder mehrere der Autokorrelationen signifikant ungleich Null sein. Darüber hinaus werden Autokorrelationsdiagramme in der Modellidentifikationsstufe für autoregressive, gleitende mittlere Zeitreihenmodelle von Box-Jenkins verwendet. Autokorrelation ist nur ein Maß der Zufälligkeit Beachten Sie, dass unkorreliert nicht unbedingt zufällig bedeutet. Daten mit signifikanter Autokorrelation sind nicht zufällig. Daten, die keine signifikante Autokorrelation aufweisen, können jedoch auf andere Weise noch nicht-zufällig auftreten. Autokorrelation ist nur ein Maß der Zufälligkeit. Im Rahmen der Modellvalidierung (die der primäre Typ der Zufälligkeit ist, die wir im Handbuch behandeln) ist die Überprüfung auf Autokorrelation typischerweise ein ausreichender Test der Zufälligkeit, da die Residuen von schlechten Anpassungsmodellen dazu tendieren, nicht-subtile Zufälligkeit zu zeigen. Einige Anwendungen erfordern jedoch eine strengere Bestimmung der Zufälligkeit. In diesen Fällen wird eine Batterie von Tests, die eine Überprüfung auf Autokorrelation einschließen kann, angewandt, da Daten in vielen verschiedenen und oft subtilen Arten nicht-zufällig sein können. Ein Beispiel dafür, wo eine strengere Überprüfung der Zufälligkeit erforderlich ist, wäre das Testen von Zufallszahlengeneratoren. Beispiel-Diagramm: Autokorrelationen sollten nahe-Null für die Zufälligkeit sein. Dies ist bei diesem Beispiel nicht der Fall, so dass die Zufallsannahme fehlschlägt. Dieses Beispiel-Autokorrelationsdiagramm zeigt, dass die Zeitreihe nicht zufällig ist, sondern vielmehr einen hohen Grad an Autokorrelation zwischen benachbarten und nahe benachbarten Beobachtungen aufweist. Definition: r (h) versus h Autokorrelationsdiagramme werden durch vertikale Achse gebildet: Autokorrelationskoeffizient, wobei C h die Autokovarianzfunktion ist und C 0 die Varianzfunktion ist. Beachten Sie, dass R h zwischen -1 und 1 liegt Folgende Formel für die Autokovarianz-Funktion Obwohl diese Definition weniger Vorspannung hat, hat die (1 / N) - Formulierung einige wünschenswerte statistische Eigenschaften und ist die am häufigsten in der Statistikliteratur verwendete Form. Siehe Seiten 20 und 49-50 in Chatfield für Details. Horizontale Achse: Zeitverzögerung h (h 1, 2, 3.) Die obige Zeile enthält auch mehrere horizontale Bezugslinien. Die Mittellinie ist auf Null. Die anderen vier Zeilen sind 95 und 99 Konfidenzbänder. Beachten Sie, dass es zwei verschiedene Formeln für die Erzeugung der Vertrauensbänder gibt. Wenn das Autokorrelationsdiagramm verwendet wird, um auf Zufälligkeit zu testen (dh es gibt keine Zeitabhängigkeit in den Daten), wird die folgende Formel empfohlen: wobei N die Stichprobengröße ist, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha ) Ist das Signifikanzniveau. In diesem Fall haben die Vertrauensbänder eine feste Breite, die von der Probengröße abhängt. Dies ist die Formel, die verwendet wurde, um die Vertrauensbänder im obigen Diagramm zu erzeugen. Autokorrelationsdiagramme werden auch in der Modellidentifikationsstufe für die Montage von ARIMA-Modellen verwendet. In diesem Fall wird für die Daten ein gleitendes Durchschnittsmodell angenommen und die folgenden Konfidenzbänder erzeugt: wobei k die Verzögerung, N die Stichprobengröße, z die kumulative Verteilungsfunktion der Standardnormalverteilung und (alpha) ist Das Signifikanzniveau. In diesem Fall nehmen die Vertrauensbänder zu, wenn die Verzögerung zunimmt. Das Autokorrelationsdiagramm kann Antworten auf die folgenden Fragen liefern: Sind die Daten zufällig Ist eine Beobachtung, die sich auf eine angrenzende Beobachtung bezieht, ist eine Beobachtung, die mit einer zweimal entfernten Beobachtung zusammenhängt (usw.) Ist die beobachtete Zeitreihe weißes Rauschen Ist die beobachtete Zeitreihe sinusförmig Ist die beobachtete Zeitreihe autoregressiv Was ist ein geeignetes Modell für die beobachtete Zeitreihe Ist das Modell gültig und ausreichend Ist die Formel ss / sqrt gültig Bedeutung: Sicherstellung der Gültigkeit der technischen Ergebnisse Randomness (zusammen mit festem Modell, fester Variation und fester Verteilung) Ist eine der vier Annahmen, die typischerweise allen Messprozessen zugrunde liegen. Die Zufallsannahme ist aus den folgenden drei Gründen von entscheidender Bedeutung: Die meisten standardmäßigen statistischen Tests hängen von der Zufälligkeit ab. Die Gültigkeit der Testresultate steht in direktem Zusammenhang mit der Gültigkeit der Zufallsannahme. Viele häufig verwendete statistische Formeln hängen von der Zufallsannahme ab, wobei die häufigste Formel die Formel zur Bestimmung der Standardabweichung des Stichprobenmittels ist: wobei s die Standardabweichung der Daten ist. Obwohl stark verwendet, sind die Ergebnisse aus der Verwendung dieser Formel ohne Wert, es sei denn, die Zufälligkeitsannahme gilt. Für univariate Daten ist das Standardmodell Wenn die Daten nicht zufällig sind, ist dieses Modell falsch und ungültig, und die Schätzungen für die Parameter (wie die Konstante) werden unsinnig und ungültig. Kurz, wenn der Analytiker nicht auf Zufälligkeit prüft, dann wird die Gültigkeit vieler statistischer Schlüsse verdächtig. Das Autokorrelationsdiagramm ist eine hervorragende Möglichkeit, diese Zufälligkeit zu überprüfen.2.2 Partielle Autokorrelationsfunktion (PACF) Druckfreundliche Version Im allgemeinen ist eine partielle Korrelation eine bedingte Korrelation. Es ist die Korrelation zwischen zwei Variablen unter der Annahme, dass wir wissen und berücksichtigen die Werte von einigen anderen Satz von Variablen. Betrachten wir zum Beispiel einen Regressionskontext, in dem die y-Antwortvariable und x & sub1; X 2. Und x 3 sind Prädiktorvariablen. Die partielle Korrelation zwischen y und x 3 ist die Korrelation zwischen den Variablen, die unter Berücksichtigung der Beziehung von y und x 3 zu x 1 und x 2 bestimmt wird. In der Regression konnte diese partielle Korrelation durch Korrelation der Residuen aus zwei verschiedenen Regressionen gefunden werden: (1) Regression, in der wir von x 1 und x 2 vorhersagen. (2) Regression, in der wir x 3 von x 1 und x 2 voraussagen. Grundsätzlich korrelieren wir die Teile von y und x 3, die nicht durch x 1 und x 2 vorhergesagt werden. Formell können wir die soeben beschriebene partielle Korrelation definieren. Man beachte, dass auch die Parameter eines Regressionsmodells interpretiert werden. Denken Sie an den Unterschied zwischen der Interpretation der Regressionsmodelle: (y beta1x2 text y beta0beta1xbeta2x2) Im ersten Modell kann 1 als lineare Abhängigkeit zwischen x 2 und y interpretiert werden. Im zweiten Modell wird 2 als die lineare Abhängigkeit zwischen x 2 und y WITH interpretiert, wobei die Abhängigkeit zwischen x und y bereits berücksichtigt wurde. Für eine Zeitreihe wird die partielle Autokorrelation zwischen x t und x t-h als die bedingte Korrelation zwischen x t und x t-h definiert. Bedingt von x t-h1. X t-1. Die Menge der Beobachtungen, die zwischen den Zeitpunkten t und th kommen. Die partielle Autokorrelation erster Ordnung wird so definiert, dass sie der Autokorrelation der 1. Ordnung entspricht. Die partielle Autokorrelation 2. Ordnung (Verzögerung) ist die Korrelation zwischen Werten, die zwei Zeitperioden voneinander abhängig sind, abhängig von der Kenntnis des dazwischen liegenden Werts. (By the way, werden die beiden Varianzen im Nenner einander in einer stationären Reihe gleich.) Die partielle Autokorrelation 3. Ordnung (Verzögerung) ist und so weiter, für jede Verzögerung. Typischerweise werden Matrixmanipulationen, die mit der Kovarianzmatrix einer multivariaten Verteilung zu tun haben, verwendet, um Abschätzungen der partiellen Autokorrelationen zu bestimmen. Einige nützliche Fakten über PACF - und ACF-Muster Die Identifikation eines AR-Modells wird am besten mit der PACF durchgeführt. Bei einem AR-Modell schaltet sich die theoretische PACF vorbei an der Reihenfolge des Modells ab. Der Satz schließt aus, dass in der Theorie die partiellen Autokorrelationen gleich 0 über diesen Punkt hinaus sind. Anders ausgedrückt gibt die Anzahl der partiellen Autokorrelationen ungleich Null die Ordnung des AR-Modells an. Nach der Ordnung des Modells meinen wir die extremste Verzögerung von x, die als Prädiktor verwendet wird. Beispiel. In Lektion 1.2 haben wir ein AR (1) - Modell für eine Zeitreihe der jährlichen Zahl der weltweiten Erdbeben mit einer seismischen Größe größer als 7.0 identifiziert. Im folgenden ist die Beispiel-PACF für diese Serie. Es ist zu beachten, dass der erste Verzögerungswert statistisch signifikant ist, während partielle Autokorrelationen für alle anderen Verzögerungen nicht statistisch signifikant sind. Dies schlägt ein mögliches AR (1) - Modell für diese Daten vor. Die Identifikation eines MA-Modells wird am besten mit dem ACF statt mit der PACF durchgeführt. Für ein MA-Modell schaltet die theoretische PACF nicht ab, sondern verläuft in gewisser Weise zu 0. Ein klareres Muster für ein MA-Modell ist im ACF. Der ACF wird Autocorrelationen von null Null aufweisen, die nur bei in dem Modell involvierten Verzögerungen auftreten. Lektion 2.1 enthielt die folgende Beispiel-ACF für eine simulierte MA (1) - Reihe. Beachten Sie, dass die erste Verzögerung Autokorrelation statistisch signifikant ist, während alle nachfolgenden Autokorrelationen nicht. Dies schlägt ein mögliches MA (1) - Modell für die Daten vor. Theoretischer Hinweis. Das Modell für die Simulation war x t 10 w t 0,7 w t-1. In der Theorie war die erste Verzögerung Autokorrelation 1 / (1 1 2) .7 / (1.7 2) .4698 und Autokorrelationen für alle anderen Verzögerungen 0. Das zugrundeliegende Modell für die MA (1) - Simulation in Lektion 2.1 war xt 10 wt 0,7 Wt-1. Es folgt die theoretische PACF (partielle Autokorrelation) für dieses Modell. Beachten Sie, dass sich das Muster allmählich auf 0 verjüngt. R Anmerkung: Die gerade dargestellte PACF wurde in R mit diesen beiden Befehlen erstellt: ma1pacf ARMAacf (ma c (.7), lag. max 36, pacfTRUE) plot (ma1pacf, typeh, main Theoretical PACF von MA (1) mit theta 0.7) Navigation
No comments:
Post a Comment