viernes, 28 de junio de 2019

Mineração de Texto no R

Iramuteq
http://www.iramuteq.org/documentation/fichiers/tutoriel-en-portugais




Fonte Wikipedia:




Ainda não trabalhamos com mineração de texto. Mas temos pessoas na equipe que conhecem muito bem o R e que conhecem de mineração de texto, devemos aprender rápido.




lunes, 17 de junio de 2019

MANOVA

MANOVA 











data imc_dat;
input cat $ imc corr kcal;
cards;
AT 20.2 60.7 3200
AT 21.3 54.8 3100
AT 19.3 49.6 2800
AT 21.1 52.3 3300
SEM 22.4 14.9 2600
SEM 21.9 17.8 2700
SEM 23.8 18.6 3200
SEM 24.1 15.1 3300
SE  27.3 2.5 2700
SE  23.4 4.3 2300
SE  25.2 2.3 2600
SE  26.4 2.6 3200
PR 26.2 4.1 2600
PR 24.2 2.1 2700
PR 25.4 1.9 2650
;
proc print;
run;
proc glm;
 class cat;
 model imc corr kcal  = cat;
 contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;
 contrast " Professor Vs Sedentario" cat 0 1 -1 0;
 manova h=_all_ / printe printh;
 contrast " Atl e Semiat Vs Seden e Prof" 1 -1 -1 1;
 contrast " Professor Vs Sedentario" cat 0 1 -1 0;

run;

/* 
contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;
Pega a ordem alfabetica dos niveis dos fatores para os coeficientes
   dos contrastes 
Se colocar o contraste depois do comando MANOVA faz os contrastes univariados 
tambem
*/


Correlação Residual MANOVA:


Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 11
imc
corr
kcal
imc
1.000000

0.017729
0.9564
0.697770
0.0116
corr
0.017729
0.9564
1.000000

0.132496
0.6814
kcal
0.697770
0.0116
0.132496
0.6814





Outro Exemplo de Contrastes, Ordem Alfabética:





- Análise Multivariada Exemplos: 
















Comparar resultados ANOVA com Kruskal-Wallis.


data imc_dat;
input cat $ imc corr kcal;
cards;
AT    20.2  60.7  3200
AT    21.3  54.8  3100
AT    19.3  49.6  2800
AT    21.1  52.3  3300
SEM   22.4  14.9  2600
SEM   21.9  17.8  2700
SEM   23.8  18.6  3200
SEM   24.1  15.1  3300
SE    27.3  2.5   2700
SE    23.4  4.3   2300
SE    25.2  2.3   2600
SE    26.4  2.6   3200
PR    26.2  4.1   2600
PR    24.2  2.1   2700
PR         25.4         1.9        2650
;
proc print;
run;
proc npar1way data=imc_dat wilcoxon dscf;
 class cat;
 var imc corr kcal = cat;
run;
Tem um erro nesse programa, onde esta? Compare com os slides apresentados antes do programa SAS (Dois slides de Kruskal Wallis com trechos de programa SAS).


 var imc corr kcal = cat; ==> ANOVA, GLM, MANOVA
 var imc corr kcal;          ==> Kruskal Wallis







Resultados de Kruskal Wallis

Arquivo Word para Download:




Resultados ANOVA dados brutos, transformados e da Estat. Robusta. Tese doutorado do Gabriel.









lunes, 10 de junio de 2019

Videoaulas de Regressão - Macro em Excel - EXCEL AVANÇADO


Videoaulas de Regressão - Macro em Excel  - EXCEL AVANÇADO

Videoaula 1 - Resolvendo Graficamente e Sem Probabilidade ( Sem Macros em Excel)

https://www.youtube.com/watch?v=HWnrEfMHOZw&feature=youtu.be





Videoaula 2 - Resolvendo com Probabilidade, Margem de Erro e Margem de Confiança, Inferência Estatística - Macro de Regressão em Excel


https://www.youtube.com/watch?v=qLbziQKSeB8&feature=youtu.be


 Propaganda - Vendas 

Arquivo para Download




Regressão Linear é um dos modelos mais atrativos devido a sua representação entendível, no caso da regressão linear simples sua utilização é mais para aprendizado, já que na prática ela não é muito aplicada, visto que, em muitos casos a gama de variáveis de entradas é maior, fazendo-se uso da Regressão Linear Multivariável, ao qual não adentraremos nesse post. O modelo de representação da regressão linear simples é a tradicional equação conhecida como equação da reta ou em inglês slope-intercept form, usaremos a notação mais utilizada em exemplos de Machine Learning e não da matemática, mas você pode saber mais sobre a própria equação neste link.
Temos o y a variável dependente que representa a predição, as letras gregas β (Beta), também conhecidos como coeficientes, que são a representação das variáveis que o algoritmo irá utilizar para “aprender” a produzir as previsões mais precisas e o x a variável independente que representa o dado de entrada. As letras gregas β também são conhecidas como inclinação e interceptação ou em inglês intercept-slope.

Função de custo


Função de custo, no inglês cost function ou ainda ordinary least squares é uma função utilizada para medir o quão errado o modelo está, os chamados resíduos. Isto é, consiste no cálculo da distância de cada ponto (distância essa entre as variáveis x e y) em relação a reta de regressão, esse valor é elevado ao quadrado e somado, o total é a quantidade média de erro do modelo.


domingo, 9 de junio de 2019

POR QUE PARTICIPAR do Projeto?

Coordenador: Prof. Gabriel Sarriés


- Estão todos convidados, acompanhem nosso blog (https://ia-cd-gs-esalq-usp.blogspot.com) e participem de nossas reuniões, próxima reuniao dia 16/7 (neste mês não da pelo fim do semestre) as 15h no Laboratório A do LCE ou por Youtube, ver endereço no blog do projeto, transmitiremos on line e também ficará gravado em streaming, gravado no blog;

- Estaremos discutindo permanentemente a forma de nos adaptar a esse Mundo da Inteligencia Artificial e da Industria, Gestão e Serviços 4.0, Quarta Revolução Industrial (Alemanha 2013);

- Surgirão e desaparecerão especialidades, mudanças profundas nas profissões, estaremos monitorando o mercado em parceria com o setor produtivo;



- Iremos orientar alunos de graduação e pós-graduação profissionalizante na implantação de ferramentas modernas em empresas, nessas duas situações vocês terão pleno acesso a todas as empresas, podemos ser coorientadores, flexibilidade total;


Temos contatos com universidades, empresas e institutos de pesquisa no Brasil e exterior:

Núcleo de Inovação Tecnológica Qualidade e Metrologia na Agropecuária NIT-Q&M (CENA-ESALQ-CNPq); CRM-Agro - Centro Colaborador em Defesa Agropecuária: Produção de Materiais de Referência  e Organização de Ensaios de Proficiência para Agricultura, Pecuária e Toxicologia (CENA – ESALQ / USP EMBRAPA, FCFRP  MAPA e CNPq). Brazilian Satellite Centre of Trace Element Institute for UNESCO BSC/UNESCO, Laboratório de Radioisótopos do CENA (ISO 17025, mais de 27 anos de projeto), Instituto de Matemática e Ciência da Computação de São Carlos da USP-ICMC (Estatística, Inteligência Artificial e Ciência de Dados); Laboratório de Análises Estatísticas do Departamento de Ciências Exatas da ESALQ/USP , CERTI (fundação para Inovação, Hiperinovação, Competitividade e Metrologia de Floreanólopis), IPT, INMETRO, NIST (maior instituto de padronização do mundo, temos uma integrante do projeto fazendo parte do pós-doutorado no NIST), Delft University, International Atomic Energy Agency (IAEA), American Nuclear Society (ANS), International Committee on Activation Analysis (ICAA) Inorganic Analytical Working Group (IAWG), Consultative Committee for Amount of Substance (CCQM), Bureau International des Poids et Mesures (BIPM), Núcleo de Pesquisa em Tecnologia e Inovação para Sustentabilidade da Agricultura - NAPTISA - CENA/USP, Fundação Getúlio Vargas, UNIMEP, Universidad de Buenos Aires (UBA) Fundación Barcelo (Medicina), Universidad Nacional de Arequipa Peru (Economia, Administración e Ingenierias), Informa Economics (maior empresa de informação de agribusines), Sky (AT&T, maior empresa de comunições), Hospital Albert Einstein (cardiologia), Raizen (maior empresa de açúcar e álcool do mundo), JBS (maior empresa de processamento de carne do mundo), Free Boi,  Nestle, BeefPassion, Bom Sem Gluten, Limex, Faz, M&Q Solutions, Ikom, Sanavita, Bioagri, Monsanto, Nestle, Unilever, Danone, Cargill (maior empresa do agronegócio brasileiro e uma das maiores do mundo), Aprosoja (uma das maiores associações de produtores de soja e milho do mundo), Fundação Mato Groso (produtores de genética de soja no Centro Oeste do Brasil), HOLAMBRA (flores e grãos), Sindicato Patronal de Primavera do Leste MT (grandes produtores de soja, milho e boi), Jacto (multinacional de maquinas agrícolas com matriz no Brasil),  Viação Piracicabana (TQM Toyota ISO 9001-14001, Universidade do Ônibus, referencia nacional, mais de 27 anos de projeto), GOL (aviação), Viação Limeirense, Siemens, Petrobras, Shell, Madeireira Martins, Grupo Lúcio Miranda (Soja-Milho-Trigo-Aveia-Boi, 14 fazendas e uma transportadora), AIEA - Agencia Internacional de Energia Atômica (Peter Bode - meu Coach-ISO 17025 - ha 28 anos-Fukushima tsunami, reatores nucleares- Irão, auditoria de laboratórios que trabalham com energia nuclear), etc.

- Estamos convidando a todos os professores da ESALQ e CENA  a participar do projeto, também de outras universidades, empresas e institutos de pesquisa.

- Pretendo trabalhar neste projeto ate ficar gaga, não como coordenador, é muito ambicioso e eu estou na ultima parte da carreira, porem no momento não conheço ninguém na USP de Piracicaba que tenha meu conhecimento como para coordenar este projeto, logicamente nos próximos anos as pessoas se qualificarão, quero delegar a coordenação o antes possível;

- Já tentei colocar outro coordenador mas as pessoas não se sentem preparadas ainda, são áreas muito amplas, tal vez de aqui a um ou dois anos;

martes, 4 de junio de 2019

VIDEOAUALAS SAS - Introdução ao Programa SAS Principal ferramenta de BI do Mundo

Introdução ao Programa SAS Principal ferramenta de BI do Mundo



12/4/2019





Programas Análogos ao SAS





Videoaulas do Programa SAS para ANOVA


Primeira Videoaula - Rodando um Programa SAS para ANOVA:





Segunda Videoaula - Interpretando o Resultado de um Programa SAS para ANOVA






Entrando no SAS da Web

Primeiro você tem que criar uma conta no SAS on Demand (gratuita)

Depois você segue estes passos para entrar no SAS na Web:




Ou isto 















Tela do SAS on Demand na Internet







OK Você já está no SAS da Internet!







Programa SAS :

data SUCOS;
input suco $ NaOH;
cards;
Maca    8
Maca    11
Maca    10
Maca    8
Maca    9
Uva 8
Uva 6
Uva 7
Uva 9
Laranja 5
Laranja 4
Laranja 5
Manga   2
Manga   1
Manga   1
;
proc ANOVA;
class suco;
model NaOH=suco;
means suco/ tukey lines;
run;







Resultado da Análise:






Dependent Variable: NaOH
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
3
129.8000000
43.2666667
36.24
<.0001
Error
11
13.1333333
1.1939394


Corrected Total
14
142.9333333





O número em vermelho é a margem de erro da ANOVA, em termos proporcionais, chamado nas publicações de p valor (p value).
No âmbito corporativo se utiliza (1- p valor) * 100 = Margem de confiança para se rejeitar a hipótese Ho: Hipótese nula (ou Hipotese de Nulidade) ou Hipótese de Igualdade, ou seja que todos os sucos contem igual quantidade (concentração) de OHNa. Se tivermos p valor < 0,05 ou margem de confiança > 95%, então rejeita-se Ho, em favor de H1: Hipótese Alternativa, assim existe alguma diferença de concentração de OHNa entre os sucos.
Assim os sucos tem diferenças na quantidade de NaOH.
Mas onde estão as diferenças?
Temos que ver os Box Plot de cada suco e a comparação de medias efetuada neste casso pelo Teste de Comparações Múltiplas de Tukey.




Box and wisker plot - Wikipedia











Relatório do Teste de Tukey no 
SAS Comercial









Relatório de ANOVA (SAS):

Resultados e Discussão
O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro). Assim o experimento mostra diferenças altamente significativas (quando o p valor e < 0,01) (se estive-se o p valor entre 0,01 e 0,05, as diferenças seriam simplesmente significativas) e por ultimo se o p valor for > do que 0,05 então não se rejeita a hipótese de igualdade.
O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg), por que as medias dos 2 sucos são precedidas pela letra "A". Esses dois sucos diferiram estatisticamente dos sucos de laranja (letra "B") e manga que apresentaram as menores medias aritméticas de Na OH (letra "C").
Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).
O texto em verde é somente para esclarecimentos, não deve ser colocado na tese.









 Estrutura Programa SAS






Diferentes Cores de Letras Atribuídas pelo SAS



Veja que você poderá mudar o que esta em fonte cor preta, as palavras em azul, são palavras reservadas do SAS, isso não poderá ser mudado. Tambem veja que o banco de dados, que seguramente você digitou no Excel esta com uma sobra cor amarelo-marrão.





 Fim Estrutura Programa SAS


Como Gravar os 2 Arquivos Gerados pelo SAS
1) O arquivo de programa SAS e dados tem exetencao ".sas"
2) O arquivo de resultados tem extencao " .mht".
Esse dois arquivos podem ser lidos pelo Word, clicando no nome do arquivo com o botão direito do mouse e escolhendo a opção "Abrir com" do Microsoft Explorer.


VIDEOAULAS TOMADA DE DECISÃO em Pesquisa e Inteligência Organizacional

Tomada de Decisão em Pesquisa e Inteligência Organizacional



Videoaula 1






Videoaula 2





Livro Básico - Infer. Estat. Indutiva - Download












- Exemplo: Arquivo do Excel para Download:

           







Aparentemente há diferenças, as medias aritméticas são diferentes, umas maiores ou menores que as outras. Por exemplo o DBO da Área Urbana é 9,7 mg/l e da Área Semiurbana 7,2 mg/l. Essa informação é suficiente para tomar a decisão de falar que são diferentes?

Não, essa diferença de medias aritméticas é matemática, 


não estatística, para falar que são diferentes devemos


 aplicar um teste de hipótese estatístico (que faz parte da


 Inferência Estatística Indutiva), por exemplo o Teste T de


 Student (se os dados tiverem distribuição Normal) ou U de


 Mann–Whitney (Estatística Robusta) se tivermos problemas


 de normalidade, heterocedasticidade ou presença de 


outliers (dados fora de contexto), o se simplesmente não


 quisermos ou podermos, testar todas essas pressuposições.


Esses testes nos fornecerão uma Margem de Erro (probabilidade) e uma Margem de Confiança, para tomarmos a decisão da melhor maneira possível, por exemplo em ciência (teses, papers, congressos. Etc.) não são aceitas as tomadas de decisão sem os endossos probabilísticos. Tambem é assim na área de gestão, desde a segunda gerra mundial (E. Deming), em EUA e Japão.


OK, vamos fazer a primeira analise desses dados no Excel, utilizando macros analíticas (programas dentro do programa Excel). Uma dessas macros é Teste T de Student para Duas Amostras Independente com Variâncias Desconhecidas.

O teste T é a ferramenta mais importante para a tomada de decisão em gestão, inteligência e certificação internacional da qualidade.
Na área de pesquisa a principal ferramenta de tomada de decisão é ANOVA. ANOVA é uma generalização do Teste T, quando existem mais do que dois níveis do fator tratamentos, o Teste T é somente para dois níveis.



Em primeira instancia devemos ativar as macros analíticas do Excel, normalmente compramos o Excel e utilizamos somente uma parte dele, o mais frequente é não estarem ativadas (como comprar um apartamento de 3 quartos e utilizar somente um ou dois), nos departamentos, laboratóriosempresas, etc.



Vídeo para Ativar as Macros Analíticas do Excel:





Vídeo para Rodar a Macro Analitica Teste T de Student para Amostras Independentes em Excel:








·      Ho: Hipótese de Nulidade ou de Igualdade
o    DBO Reg. Urbana = DBO Reg. Semiurbana
o    DBO Reg. Urbana - DBO Reg. Semiurbana = 0
o     
·      H1:  Hipótese de Alternativa
o    H1a: Uni caudal: 
§  DBO Reg. Urbana > DBO Reg. Semiurbana
o    H1b: Bicaudal:
§  DBO Reg. Urbana    ≠ DBO Reg. Semiur.
·         H1a: Uni caudal - Demanda Informação Confiável Previa
·         H1b: Bicaudal - Sem Informação Previa

Teste-t: duas amostras presumindo variâncias diferentes
DBO - Urbana
DBO Semiurbana
Média
9,666667
7,166666667
Variância
2,333333
1,583333333
Observações
3
3
Hipótese da diferença de média
0
gl
4
Stat t
2,187975
P(T<=t) uni-caudal
0,046952
Margem de Erro
t crítico uni-caudal
2,131847
P(T<=t) bi-caudal
0,093904
Margem de Erro
t crítico bi-caudal
2,776445


Margem de Erro Uni caudal =4,7 %      
  • Demanda Informação Previa Confiável
    • Publicação (Academia)    
    •  Sumario Executivo (Empresa Privada)                                     

                                                                                                         
Margem de Erro Bi caudal = 9,4   %       

  • Não Demanda Informação Previa Confiável                

Resultados e Discussão (de um documento cientifico – Iniciação, TCC, Mestrado, Doutorado, Pós-doutorado, publicação):
Com Informação Previa Confiável:
A média aritmética para DBO dos ribeirões da região urbana (9,7 mg/l) foi maior significativamente ( p <  0,04695) do que media dos ribeirões da região semiurbana ( 7,2 mg/l).
Sem Informação Previa Confiável:
Não foram conseguidos argumentos suficientes para se rejeitar a hipótese de igualdade ( p < 0,093904151)

Sumario Executivo (Empresa):
Com Informação Previa Confiável:
O DBO da área urbana (9,7 ) é maior do que o DBO da área semiurbana (7,2) com 95,3% de confiança;

Sem Informação Previa Confiável:


Não existe evidencia significativa de diferença na quantidade de DBO nas duas situações analisadas (margem de confiança insuficiente 91%)