Selected Article

Title

Bayesian hierarchical modelling of young stellar clusters

Modélisation hiérarchique bayésienne des amas stellaires jeunes

Description

The origin and evolution of stellar populations is one of the greatest challenges in modern astrophysics. It is known that the majority of the stars has its origin in stellar clusters (Carpenter 2000; Porras et al. 2003; Lada & Lada 2003). However, only less than one tenth of these clusters remains bounded after the first few hundred million years (Lada & Lada 2003). Ergo, the understanding of the origin and evolution of stars demands meticulous analyses of stellar clusters in these crucial ages.The project Dynamical Analysis of Nearby Clusters (DANCe, Bouy et al. 2013), from which the present work is part of, provides the scientific framework for the analysis of Nearby Young Clusters (NYC) in the solar neighbourhood (< 500 pc). The DANCe carefully designed observations of the well known Pleiades cluster provide the perfect case study for the development and testing of statistical tools aiming at the analysis of the early phases of cluster evolution.The statistical tool developed here is a probabilistic intelligent system that performs Bayesian inference for the parameters governing the probability density functions (PDFs) of the cluster population (PDFCP). It has been benchmarked with the Pleiades photometric and astrometric data of the DANCe survey. As any Bayesian framework, it requires the setting up of priors. To avoid the subjectivity of these, the intelligent system establish them using the Bayesian Hierarchical Model (BHM) approach. In it, the parameters of prior distributions, which are also inferred from the data, are drawn from other distributions in a hierarchical way.In this BHM intelligent system, the true values of the PDFCP are specified by stochastic and deterministic relations representing the state of knowledge of the NYC. To perform the parametric inference, the likelihood of the data, given these true values, accounts for the properties of the data set, especially its heteroscedasticity and missing value objects. By properly accounting for these properties, the intelligent system: i) Increases the size of the data set, with respect to previous studies working exclusively on fully observed objects, and ii) Avoids biases associated to fully observed data sets, and restrictions to low-uncertainty objects (sigma-clipping procedures).The BHM returns the posterior PDFs of the parameters in the PDFCPs, particularly of the spatial, proper motions and luminosity distributions. In the BHM each object in the data set contributes to the PDFs of the parameters proportionally to its likelihood. Thus, the PDFCPs are free of biases resulting from typical high membership probability selections (sampling bias).As a by-product, the BHM also gives the PDFs of the cluster membership probability for each object in the data set. These PDFs together with an optimal probability classification threshold, which is obtained from synthetic data sets, allow the classification of objects into cluster and field populations. This by-product classifier shows excellent results when applied on synthetic data sets (with an area under the ROC curve of 0.99). From the analysis of synthetic data sets, the expected value of the contamination rate for the PDFCPs is 5.8 ± 0.2%.The following are the most important astrophysical results of the BHM applied tothe Pleiades cluster. First, used as a classifier, it finds ∼ 200 new candidate members, representing 10% new discoveries. Nevertheless, it shows outstanding agreement (99.6% of the 105 objects in the data set) with previous results from the literature. Second, the derived present day system mass distribution (PDSMD) is in general agreement with the previous results of Bouy et al. (2015).Thus, by better modelling the data set and eliminating unnecessary restrictions to it, the new intelligent system, developed and tested in the present work, represents the state of the art for the statistical analysis of NYC populations.

Il semble maintenant établi que la majorité des étoiles se forment dans des amas (Carpenter 2000; Porras et al. 2003; Lada & Lada 2003). Comprendre l'origine et l'évolution des populations stellaires est donc l'un des plus grands défis de l'astrophysique moderne. Malheureusement, moins d'un dixième de ces amas restent gravitationellement liés au delà de quelques centaines de millions d'années (Lada & Lada 2003). L’étude des amas stellaires doit donc se faire avant leur dissolution dans la galaxie.Le projet Dynamical Analysis of Nearby Clusters (DANCe, Bouy et al. 2013), dont le travail fait partie, fournit le cadre scientifique pour l'analyse des amas proches et jeunes (NYC) dans le voisinage solaire. Les observations de l'amas ouvert des Pléiades par le projet DANCe offrent une opportunité parfaite pour le développement d'outils statistiques visant à analyser les premières phases de l'évolution des amas.L'outil statistique développé ici est un système intelligent probabiliste qui effectue une inférence bayésienne des paramètres régissant les fonctions de densité de probabilité (PDF) de la population de l'amas (PDFCP). Il a été testé avec les données photométriques et astrométriques des Pléiades du relevé DANCe. Pour éviter la subjectivité de ces choix des priors, le système intelligent les établit en utilisant l'approche hiérarchique bayésienne (BHM). Dans ce cas, les paramètres de ces distributions, qui sont également déduits des données, proviennent d'autres distributions de manière hiérarchique.Dans ce système intelligent BHM, les vraies valeurs du PDFCP sont spécifiées par des relations stochastiques et déterministes représentatives de notre connaissance des paramètres physiques de l'amas. Pour effectuer l'inférence paramétrique, la vraisemblance (compte tenu de ces valeurs réelles), tient en compte des propriétés de l'ensemble de données, en particulier son hétéroscédasticité et des objects avec des valeurs manquantes.Le BHM obtient les PDF postérieures des paramètres dans les PDFCP, en particulier celles des distributions spatiales, de mouvements propres et de luminosité, qui sont les objectifs scientifiques finaux du projet DANCe. Dans le BHM, chaque étoile du catalogue contribue aux PDF des paramètres de l'amas proportionnellement à sa probabilité d'appartenance. Ainsi, les PDFCP sont exempts de biais d'échantillonnage résultant de sélections tronquées au-dessus d'un seuil de probabilité défini plus ou moins arbitrairement.Comme produit additionnel, le BHM fournit également les PDF de la probabilité d'appartenance à l'amas pour chaque étoile du catalogue d'entrée, qui permettent d'identifier les membres probables de l'amas, et les contaminants probables du champ. La méthode a été testée avec succès sur des ensembles de données synthétiques (avec une aire sous la courbe ROC de 0,99), ce qui a permis d'estimer un taux de contamination pour les PDFCP de seulement 5,8 %.Ces nouvelles méthodes permettent d'obtenir et/ou de confirmer des résultats importants sur les propriétés astrophysiques de l'amas des Pléiades. Tout d'abord, le BHM a découvert 200 nouveaux candidats membres, qui représentent 10% de la population totale de l'amas. Les résultats sont en excellent accord (99,6% des 100 000 objets dans l'ensemble de données) avec les résultats précédents trouvés dans la littérature, ce qui fournit une validation externe importante de la méthode. Enfin, la distribution de masse des systèmes actuelle (PDSMD) est en général en bon accord avec les résultats précédents de Bouy et al. 2015, mais présente l'avantage inestimable d'avoir des incertitudes beaucoup plus robustes que celles des méthodes précédentes.Ainsi, en améliorant la modélisation de l'ensemble de données et en éliminant les restrictions inutiles ou les hypothèses simplificatrices, le nouveau système intelligent, développé et testé dans le présent travail, représente l'état de l'art pour l'analyse statistique des populations de NYC.