Modele lineaire generalise r

Voir aide (GLM) pour d`autres options de modélisation. Voir aide (famille) pour les autres fonctions de liaison autorisées pour chaque famille. Trois sous-types de modèles linéaires généralisés seront abordés ici: régression logistique, régression de poisson et analyse de survie. Pour la distribution normale, le modèle linéaire généralisé a une expression de forme fermée pour les estimations de probabilité maximale, ce qui est pratique. La plupart des autres GLMs manquent d`estimations de forme fermée. Les modèles additifs généralisés (GAMs) sont une autre extension des GLMs dans lesquelles le prédicteur linéaire η n`est pas limité à être linéaire dans les covariables X, mais est la somme des fonctions de lissage appliquées à la xis: un autre exemple de modèles linéaires généralisés inclut poisson régression qui modélise les données à l`aide de la distribution de poisson. Le lien est typiquement le logarithme, le lien canonique. Notons également que dans le cas des distributions de Bernoulli, binomiales, catégorielles et multinomiales, le soutien des distributions n`est pas le même type de données que le paramètre prévu. Dans tous ces cas, le paramètre prédit est une ou plusieurs probabilités, c`est-à-dire des nombres réels dans la plage [0,1] {displaystyle [0, 1]}. Le modèle résultant est connu sous le nom de régression logistique (ou de régression logistique multinomiale dans le cas où K-Way plutôt que des valeurs binaires sont prévues). Que fait un modèle linéaire généralisé? R fournit une fonction de modélisation appelée GLM () qui s`adapte aux modèles linéaires généralisés (abrégés en tant que GLMs). Une question naturelle est ce que fait-il et quel problème est-il résoudre pour vous? Nous travaillons quelques exemples et mettons en contexte des modèles linéaires généralisés avec d`autres techniques. Pour prédire un résultat catégorique (tel que y = true/false), il est souvent conseillé d`utiliser une forme de GLM appelée régression logistique au lieu d`une régression linéaire standard.

La question évidente est: que fait la régression logistique? Nous expliquerons le problème que la régression logistique tente de résoudre. les degrés de liberté résiduels pour le modèle null. si demandé (par défaut) le vecteur y utilisé. (C`est un vecteur même pour un modèle binomiale.) Cela peut être utilisé pour spécifier un composant a priori connu à inclure dans le prédicteur linéaire pendant le raccord. Il doit s`agir de NULL ou d`un vecteur numérique de longueur égal au nombre de cas. Un ou plusieurs termes de décalage peuvent être inclus dans la formule à la place ou aussi bien, et si plus d`un est spécifié leur somme est utilisée. Voir Model. offset. Ce que cela fait est d`adapter un modèle de probabilité maximale à nos données. C`est un modèle qui fournit des probabilités pour chaque Datum et le produit de toutes les probabilités prévues est moins surprenant (de sorte que le modèle tend à prédire des valeurs élevées sur y = vrais exemples et les valeurs faibles sur y = faux exemples). Comme on l`a vu dans la dérivation plus simple de la régression logistique, cela équivaut à trouver les a, b et c de telle sorte que maximiser le produit donné en multipliant dans un terme de la forme s (a + b * x1 + c * x2) pour chaque exemple positif et en multipliant dans un terme de la forme (1 – s (a + b * x1 + c * x2)) pour chaque exemple négatif.

Ou dans les équations: la solution de vraisemblance maximale choisit a, b et c pour maximiser le produit suivant sur toutes les données d`entraînement: la régression linéaire ordinaire prédit la valeur attendue d`une quantité inconnue donnée (la variable de réponse, une variable aléatoire) en tant que linéaire combinaison d`un ensemble de valeurs observées (prédicteurs). Cela implique qu`un changement constant dans un prédicteur conduit à un changement constant dans la variable de réponse (c.-à-d. un modèle de réponse linéaire). Ceci est approprié lorsque la variable de réponse a une distribution normale (intuitivement, lorsqu`une variable de réponse peut varier essentiellement indéfiniment dans l`une ou l`autre des directions sans aucune «valeur zéro» fixe, ou plus généralement pour toute quantité qui ne varie que par un relativement faible quantité, par ex. hauteurs humaines). Si la variable de réponse est une mesure nominale, ou si les données ne satisfont pas aux hypothèses d`un modèle ordonné, on peut s`adapter à un modèle de la forme suivante: ce chapitre couvre l`exécution d`une régression logistique et l`examen des sorties du modèle.