Por que um livro sobre análise de dados composicionais? Dados composicionais (ou CoDa, no acrônimo em inglês) consistem de vetores cujas componentes são proporções ou porcentagens de algum total. Sua peculiaridade é que sua soma está restrita a uma constante: 1 para proporções, 100 para porcentagens ou, possivelmente, outra constante c, como em partes por milhão (ppm) em composições de traços de elementos. Mas uma olhada superficial para estes dados dá a impressão de serem vetores com números reais. Por esta razão, lamentavelmente nas últimas décadas todos os métodos estatísticos concebidos para dados sem restrições foram empregados em dados composicionais. Isso ocorre apesar dos profissionais estarem conscientes (ao menos deveriam estar) de que o espaço amostral para vetores composicionais é radicalmente diferente do espaço euclidiano real associado a dados sem restrições. Várias advertências foram feitas, algumas há mais de um século, como a de Karl Pearson em 1897, citado em Pawlowsky-Glahn et al. [2015], sobre correlações espúrias em dados composicionais. Ou o alerta do geólogo Felix Chayes, em 1960, citado em Pawlowsky-Glahn et al. [2015]. Em um primeiro momento, as tentativas para superar os problemas se limitaram a identificar o que estava dando errado quando se aplicavam diretamente as técnicas de análise multivariada a dados composicionais. Mas foi somente a partir dos trabalhos de John Aitchison [2003] que uma nova teoria matemática foi desenvolvida para tratar adequadamente dos problemas relacionados a dados composicionais. Os marcos do desenvolvimento dessa teoria foram erigidos por alguns pesquisadores, dentre eles, Aitchison [2003], Pawlowsky-Glahn e Egozcue [2015], responsáveis por importantes contribuições teóricas ao seu desenvolvimento. A implementação computacional da teoria resultou no pacote Compositions desenvolvido por Boogaart & Tolosana-Delgado [2006]. Exemplos típicos em diferentes campos são:
- geologia (dados geoquímicos);
- economia (distribuição de renda/consumo);
- medicina (composição do corpo: gordura, ossos, músculos);
- indústria alimentícia (composição de alimentos);
- ecologia (abundância de espécies);
- ciências ambientais (contaminação do solo).
Este livro aborda nas três primeiras unidades a fundamentação teórica básica, definições e propriedades. Nas quatro unidades seguintes, são apresentadas aplicações típicas da estatística composicional: modelos de regressão, análise de componentes principais, análise de agrupamento e geoestatística. Um dataset real e aberto do US Geological Survey e um pacote aberto Compositions no ambiente R são utilizados para ilustrar os conceitos apresentados. É desejável que o leitor tenha conhecimentos de álgebra linear, estatística multivariada, geoestatística e a linguagem R. Para geoestatística, recomendamos o livro de Braga [2014].
SUMÁRIO
Introdução
1 Dados Composicionais
1.1 Dados Composicionais
1.2 Transformação Composicional
1.3 Diagramas Ternários
1.4 A transformação do logaritmo da razão centralizada (clr)
Anexo ArqProg1
Exercícios
Respostas
2 Estatísticas e Transformações Básicas
2.1 Notação e definições básicas
2.2 Princípios da Análise Composicional
2.3 Estatísticas Composicionais
2.4 A transformação clr
2.5 Principais Fórmulas
Anexo ArqProg2
Exercícios
Respostas
3 Espaço Vetorial das Composições
3.1 Introdução
3.2 Operações com composições
3.3 Comparação entre dois grupos de partes (balance between groups of parts)
3.4 Fórmulas Principais
Anexo ArqProg3
Exercícios
Respostas
4 Modelos Lineares
4.1 Introdução
4.2 Regressão Linear Clássica (caso univariado)
4.3 Regressão Linear Clássica (caso multivariado)
4.4 Regressão Linear Composicional
4.5 Transformação Isométrica do Logaritmo da Razão (ilr)
4.6 Fórmulas Principais
Anexo ArqProg4
Exercícios
Respostas
5 Análise de Componentes Principais
5.1 Introdução
5.2 Análise de Componentes Principais (PCA)
5.3 Biplot
5.4 Análise de Componentes Principais Composicional
5.5 Opções para o cálculo das componentes principais
5.6 Fórmulas principais
Anexo ArqProg5
Exercícios
Respostas
6 Análise de Agrupamentos
6.1 Introdução
6.2 Agrupamento de amostras
6.3 Agrupamento de Variáveis
6.4 Representação de uma base através do dendograma e a transformação ilr
6.5 Fórmulas Principais
Anexo ArqProg6
Exercícios
Respostas
7 Geoestatística Composicional
7.1 Introdução
7.2 Composições Regionalizadas
7.3 Variograma Cruzado Composicional
7.4 Krigagem Composicional
7.5 Uma aplicação da krigagem na obtenção de valores para balances farejadores
7.6 Uma aplicação da krigagem e da regressão na obtenção de uma mapa de intervalo para valores estimados de Au
7.7 Fórmulas Principais
Anexo ArqProg7
Exercícios
Respostas
8 Referências Bibliográficas
Anexo 1 Amostra alinha utilizada nos exemplos e exercícios
Avaliações
Não há comentários ainda.