1. Beschreibung
Im Gegensatz zur normalen linearen Regression minimiert die orthogonale Regression die orthogonalen Abstände aller Messwerte zu der Regressionsgeraden.
2. Herleitung der Lösungsformel
Der geometrische Abstand d_i eines Messpunktes P(x_i | y_i ) zu einer Ausgleichsgeraden
f(x) = mx + t
lässt sich wie folgt berechnen:
\displaystyle d_i^2 = \frac{(y_i – (mx_i + t))^2}{1 + m^2}

Gesucht sind nun die Koeffizienten m und t mit der kleinsten Summe der Fehlerquadrate
\displaystyle\min_{m,t}\sum_{i=1}^N d_i^2
2.1 Berechnung der partiellen Ableitung nach t
Die Gleichung
\displaystyle\frac{\partial}{\partial t}\sum _{i=1}^N \frac{(y_i – (mx_i + t))^2}{1 + m^2} = 0
ergibt als Lösung
t = \overline{y} – m \overline{x}
Dabei wird als \overline{x} der Mittelwert der x-Koordinaten der Messpunkte bezeichnet. Analog dazu ist \overline{y} der Mittelwert der y-Koordinaten der Messpunkte. Diese Lösung hat auch zur Folge, dass der Punkt P(\overline{x}|\overline{y}) stets auf der Ausgleichsgeraden liegt.
2.2 Berechnung der partiellen Ableitung nach m
Die Gleichung
\displaystyle\frac{\partial}{\partial m}\sum _{i=1}^N \frac{(y_i – (mx_i + t))^2}{1 + m^2} = 0
ergibt nach ca. einer Seite Berechnung folgende quadratische Gleichung:
\displaystyle m^2S_{xy} + m ( S_{xx} – S_{yy} ) – S_{xy} = 0
Dabei sind
\displaystyle S_{xx} = \sum_{i=1}^N (x_i – \overline{x})^2 und \displaystyle S_{yy} = \sum_{i=1}^N (y_i – \overline{y})^2
die Quadratsummen der Messwerte von X und Y und
\displaystyle S_{xy} = \sum_{i=1}^N (x_i – \overline{x}) (y_i – \overline{y})
die Produktsumme zwischen X und Y.
Auf Grund des Steigungsverhaltens dieser Parabel ergibt sich für das Minimum hier die Lösung
\displaystyle m = \frac{S_{yy} – S_{xx} + \sqrt{(S_{xx} – S_{yy})^2 + 4(S_{xy})^2}}{2S_{xy}}
Die Gleichung der Regressionsgeraden lautet somit:
\displaystyle f(x) = m ( x – \overline{x} ) + \overline{y}
2.3 Beispiel
\mathbf{x_i} | \mathbf{y_i} | \mathbf{x_i-\overline{x}} | \mathbf{y_i-\overline{y}} | \mathbf{(x_i-\overline{x})^2} | \mathbf{(x_i-\overline{x})(y_i-\overline{y})} | \mathbf{(y_i-\overline{y})^2} | |
---|---|---|---|---|---|---|---|
P1 | 1,0 | 2,0 | -2,3 | -2,1 | 5,29 | 4,83 | 4,41 |
P2 | 2,0 | 3,5 | -1,3 | -0,6 | 1,69 | 0,78 | 0,36 |
P3 | 4,0 | 5,0 | 0,7 | 0,9 | 0,49 | 0,63 | 0,81 |
P4 | 4,5 | 4,5 | 1,2 | 0,4 | 1,44 | 0,48 | 0,16 |
P5 | 5,0 | 5,5 | 1,7 | 1,4 | 2,89 | 2,38 | 1,96 |
Summe | 16,5 | 20,5 | 0,0 | 0,0 | \mathbf{S_{xx}=11,8} | \mathbf{S_{xy}=9,1} | \mathbf{S_{yy}=7,7} |
Mittelwert | \mathbf{\overline{x} = 3,3} | \mathbf{\overline{y} = 4,1} |
\displaystyle m = \frac{-4,1 + \sqrt{4,1^2 + 4 * 9,1^2}}{2 * 9,1}
Es ergibt sich m = 0,8 und die Regressionsgerade lautet daher wie folgt:
\displaystyle f(x) =0,8 ( x – 3,3 ) + 4,1
