Para esta prática, utilize as sequências disponibilizadas nos arquivos separados. Os arquivos estão no formato FASTA e podem ser abertos em programas para manipulação e análise de sequências e também em programas do tipo bloco de notas.
Esta prática utiliza a versão 11 do programa MEGA (www.megasoftware.net). Diferenças podem ocorrer, caso uma versão diferente do programa seja utilizada.
Neste tutorial será utilizado o arquivo 16SrRNA.fas e/ou 23SrRNA.fas, contendo sequências para os genes do RNA ribossomal de 16S e 23S, respectivamente.
As moléculas de DNA são compostas de duas cadeias de nucleotídeos antiparalelas (sentidos das extremidades 5’ e 3’ opostos) e com as bases complementares (devido as ligações de hidrogênio entre as bases AT e CG). As sequências para os RNA ribossomais possuem sequência correspondente idênticas (trocando a base U por T) em uma das fitas do DNA, sendo necessário verificar se todas as sequência estão no sentido correto. A verificação abaixo deverá ser realizada para cada sequência, individualmente.
Abra o arquivo das sequências codificantes no formato FASTA em um programa do tipo bloco de notas
Copie a sequência FASTA
Acesse programa BLAST em um navegador, no endereço https://blast.ncbi.nlm.nih.gov
Escolha a opção BLASTN
Marque a opção “Align two or more sequences” e espere a página recarregar
Cole as sequências FASTA na caixa de texto superior
Na caixa de texto inferior inclua a identificação CP032667, para a sequência genômica de Escherichia coli K12 substr MG1655 (usada como referência); nos espaços ao lado, em “Subject subrange”, inclua os valores em From 454613 e To 456166 (região genômica correspondente ao 16S rRNA)
Obs. Para analisar as sequências 23S rRNA, utilize como referência a mesma identificação CP032667 com os valores From 454613 e To 456166
Marque a opção “Show results in a new window” para que o resultado seja mostrado em uma nova janela
Clique no botão “BLAST” para iniciar a busca
Quando o resultado for mostrado, clique na aba “Alignments” e verifique se em ”Strand“ é observado ”Plus/Plus” (caso apareça “Plus/Minus”, verifique como corrigir a sequência abaixo)
Verifique cada uma das sequências, alterando em “Results for”
Para as sequências com resultado BLASTN “Plus/Minus”
Copie a sequência FASTA correspondente
Acesse a ferramenta online Sequence Manipulation Suite (SMS) no endereço https://www.bioinformatics.org/sms2
No menu à esquerda, selecione a opção “Reverse Complement”
Na página de formulário, clique no botão “Clear”, cole a sequência codificante na caixa de texto e clique no botão “Submit”
Obs. Verifique se a opção “reverse-complement” está selecionada
A sequência será mostrada no seu complemento reverso (fita oposta do DNA)
Copie a sequência complemento reverso e substitua a sequência no arquivo FASTA original
Salve o arquivo FASTA com todas as sequências verificadas e corrigidas com o nome 16SrRNArevcom.fas ou 23SrRNArevcom.fas
Dois programas independentes para Alinhamento Múltiplo de Sequências (MSA) estão incluídos e disponíveis no MEGA: Muscle e Clustal
Importe as sequências
Align → Edit/Build Alignment
Selecione:
Retrieve a sequence from a file
Clique em OK e selecione o arquivo 16SrRNA.fas
Alinhe as sequências
Alignment → Align by MUSCLE
Confirme a seleção para todas as sequências (“Select All?”)
Mantenha os parâmetros padrão e clique em OK para gerar o alinhamento
Exportando o MSA
Para utilizar o MSA na construção de uma árvore filogenética é necessário exportá-lo antes no formato MEGA
Data → Export Alignment → MEGA Format
Salve o arquivo com o nome 16SrRNA.meg (salve no mesmo local do arquivo FASTA)
Para a opção Input title of the data, inclua na caixa de texto 16S rRNA
Para a opção Protein-coding nucleotide sequence data?, clique no botão NO
Feche a janela contendo o MSA
A partir da janela principal do MEGA, abra o arquivo no formato MEGA salvo no etapa anterior
File → Open A File/Session…
E clique no ícone para DATA no menu horizontal para visualizar o alinhamento
DATA → Explore Active Data
Por padrão, o MSA é mostrado a partir da comparação com uma sequência consenso no topo (primeira linha); para todas as sequências no MSA, um ponto é mostrado caso a base seja idêntica àquela do consenso, caso contrário, a base diferente é mostrada
Para visualizar todas as bases no MSA
Display → Use Identical Symbol
É importante verificar sempre o MSA e as informações contidas nele
Para visualizar os sítios (colunas) que contém bases conservadas (idênticas)
Highlight → Conserved Sites
Questão. Como o programa trata as regiões de gap?
Questão. Qual a porcentagem de sítios conservados? Dica. Verifique no rodapé da janela o item Conserved: (identifique os dois valores mostrados, separados por uma “/”)
Agora, para verificar os sítios variáveis
Highlight → Variable Sites
Questão. Qual a porcentagem destes sítios?
Use também a opção
Highlight → Singletons Sites
Questão. Qual a diferença em relação aos sítios variáveis?
Crie grupos taxonômicos para as sequências
Use a opção
Data → Select & Edit Taxa/Groups…
Na janela à esquerda aparece uma árvore iniciando em “All” que deverá estar selecionado
Todas as sequências estão incluídas neste grupo “All” (experimente clicar na pequena seta apontando para baixo para fechar/expandir a árvore)
Para criar um grupo, use o botão “New” no menu na parte de baixo da janela
Nomeie o grupo como “AlphaRhizobia”
Com este grupo selecionado, selecione também todos os organismos pertencentes a classe das Alfaproteobactérias na janela à direita
Dica. O banco de dados de taxonomia do NCBI (https://www.ncbi.nlm.nih.gov/taxonomy) pode ser usado para identificar as classes das bactérias; digite o nome da espécie no campo de busca
Em seguida, clique no botão com uma seta apontada para a esquerda
Os organismos selecionados não são mais mostrados na janela e uma pequena cabeça de seta aparece na frente do grupo “AlphaRhizobia” na janela à esquerda
Clique para ver a lista de organismos
Agora, na janela à esquerda, clique no grupo “All” para selecioná-lo e, usando o mesmo procedimento anterior, crie um grupo “BetaRhizobia” e inclua os organismos pertencentes a classe das Betaproteobactérias
Quando os grupos estiverem prontos, clique no botão OK
Na janela do MSA, para mostrar o grupo correspondente a cada sequência use a opção
Display → Show Group Names
Questão. Qual dos grupos está mais representado?
Salvando o MSA com a informação para os grupos
Use a opção
Data → Export Data…
Na janela aberta, mantenha as opções padrão e certifique-se de que o Formato MEGA está selecionado Salve o arquivo, substituindo o anterior, e para a opção “Do you want to view the result?” escolha “No”
Feche a janela para o MSA
Calculando distâncias genéticas entre as sequências
No menu horizontal, clique na opção
DISTANCE → Compute Pairwise Distances…
Para a pergunta “Would you lie to use the currently active data?”, clique no botão “Yes”
Na janela aberta ajuste as opções
Model/Method (em SUBSTITUTION MODEL) para “p-distance”
Gaps/Missing Data Treatment (em DATA SUBSET TO USE) para “Partial deletion” e Site Coverage Cutoff (%) para “95”
Clique no botão OK
As sequências aparecem numeradas na primeira coluna e os números correspondentes aparecem também na primeira linha
Os valores na matriz indicam as distâncias p entre cada par de sequências no MSA e indica a proporção de bases diferentes entre cada par (o valor em porcentagem pode ser obtido multiplicando por 100)
Questão. Qual o par de sequências mais próximo e mais distante nesse conjunto de dados?
Feche a matriz de distâncias
Agora use as opções abaixo e interprete os resultados
DISTANCE → Compute overall Mean Distance…
DISTANCE → Compute Within Group Mean Distance
DISTANCE → Compute Between Group Mean Distance…
Agora use as mesmas opções acima, mas na janela de parâmetros, teste a opção para Model/Method (em SUBSTITUTION MODEL) usando Jukes-Cantor model e também Kimura 2-parameter model e compare com os resultados anteriores
Dica. É possível definir o melhor modelo de substituição para este conjunto de dados usando a opção Find Best DNA/Protein Models (ML)…
Atenção! Se as sequências forem longas e/ou houver um grande número de sequência a análise pode ser demorada
No resultado, os modelos são listados em uma tabela, do “melhor” para o “pior”
Entretanto, a interpretação deste resultado está fora do escopo deste tutorial
A construção da árvore filogenética pode ser realizada através da opção PHYLOGENY no menu horizontal. Diferentes métodos estão disponíveis no programa MEGA e as abordagens e diferenças entre eles está fora do escopo deste tutorial.
Para construir uma árvore filogenética baseada no método NJ
PHYLOGENY → Construct/Test Neighbor-Joining Tree…
Na janela aberta, altere as opções da seguinte forma
(PHYLOGENY TEST) Test of Phylogeny → Bootstrap method
No. of Bootstrap Replications → 1000
(SUBSTITUTION MODEL) Substitutions Type → Nucleotide
Model/Method → Jukes-Cantor model
(DATA SUBSET TO USE) Gaps/Missing Data Treatment → Partial deletion (teste também outras opções)
Site Coverage Cutoff (%) → 95
Obs. O método sempre gera uma árvore sem raiz
A árvore pronta aparecerá em uma nova janela e é possível alterar as opções na figura usando o menu horizontal superior ou a janela á esquerda
Note que os grupos de sequências formados antes aparecerão automaticamente
Questão. Houve separação entre os alfa e beta rizóbios?
No sub-menu “Layout” é possível ajustar o tipo de representação e a figura na tela
Tente a opção “Auto-size Tree”
Os valores mostrados representam o teste de bootstrap para cada nó, em porcentagem
Para remover os valores da figura, remova a marcação no menu em “Statistics/Frequancy/Info”
Marque no menu a opção “Branch lengths”
Note que agora são mostrados os valores para os comprimentos de ramos na árvore
Marque, no menu, a opção “Display Caption” e verifique os detalhes que são apresentados no texto descrevendo a análise filogenética; estas informações são importantes para interpretação e reprodução da análise e sempre devem ser usadas na descrição da metodologia
Mais detalhes sobre a análise pode ser obtidos com a opção
File → Show Info
Uma janela com duas colunas aparecerá; clique na aba SUMMARY e identifique as informações
Questão. Quantas sequências foram usadas na análise?
Questão. Quantos sítios contém o alinhamento usado na análise?
Questão. Quantas replicatas bootstrap foram geradas?
Questão. Qual foi o modelo de substituição usado?
Questão. Qual a soma de comprimento de ramos (SBL) obtido para a árvore? Obs. O parâmetro para otimização de uma árvore no método NJ é obter a árvore com o menor SBL (Sum of Branch Lengths): menor o SBL, “melhor” a árvore
Clique na aba “Bootstrap consensus Tree”
Questão. Como esta árvore é gerada e qual a diferença em relação a árvore da aba “Original Tree”?
Questão. Os grupos formados nesta árvore são os mesmos da árvore na aba “original Tree”?
Salve a árvore obtida
File → Export Current Tree (Newick)
Na janela aberta, caso deseje incluir os valores de bootstrap, marque a opção
Obs. No formato Newick a árvore é representada por um texto, com as sequências agrupadas por parênteses, e será mostrada em uma nova janela
Salve este arquivo
File → Save As…
Salve o arquivo com o nome 16SrRNA.nwk, no mesmo local dos arquivos de MSA
Para entender como o formato Newick representa a árvore, tente gerar o desenho da árvore a partir do texto abaixo
(((A,B),C),(D,E));
As sequências codificantes (CDS) são regiões nas sequências de DNA dos genes que correspondem às regiões de códons no RNA mensageiro. Desta forma, na análise filogenética a partir de sequências codificantes, é importante considerar e manter a estrutura de códons.
Neste tutorial poderá ser utilizado os arquivos nifH.fas e/ou nodC.fas, contendo sequências codificantes dos genes nifH e nodC, que codificam para as proteínas ferro nitrogenase (ou dinitrogenase redutase) e quito-oligosacarídeo sintase NodC, envolvidas nos processos de fixação biológica de nitrogênio e nodulação em leguminosas, respectivamente.
As moléculas de DNA são compostas de duas cadeias de nucleotídeos antiparalelas (sentidos das extremidades 5’ e 3’ opostos) e com as bases complementares (devido as ligações de hidrogênio entre as bases AT e CG). As sequências codificantes ocorrem em uma das fitas do DNA, sendo necessário verificar se todas as sequência estão no sentido correto. Devido as sequências codificantes conterem uma estrutura em códons, também é necessário verificar se esta estrutura está mantida (fase de leitura), principalmente quando as sequências não contém o gene completo. A verificação abaixo deverá ser realizada para cada sequência, individualmente.
Abra o arquivo das sequências codificantes no formato FASTA em um programa do tipo bloco de notas
Copie a sequência FASTA
Acesse programa BLAST em um navegador, no endereço https://blast.ncbi.nlm.nih.gov
Escolha a opção BLASTX
Cole a sequência FASTA na caixa de texto “Enter accession number(s), gi(s), or FASTA sequence(s)”
Marque a opção “Show results in a new window” para que o resultado seja mostrado em uma nova janela
Clique no botão “BLAST” para iniciar a busca
Quando o resultado for mostrado, clique na aba “Alignments”
Para o primeiro alinhamento, verifique a informação em “Frame” (fase de leitura)
Se o valor for “+1”, a sequência está pronta para análise
Se o valor for “-1”, a sequência deverá ser alterada (ver abaixo)
Para as sequências com “Frame -1”
Copie a sequência FASTA
Acesse a ferramenta online Sequence Manipulation Suite (SMS) no endereço https://www.bioinformatics.org/sms2
No menu à esquerda, selecione a opção “Reverse Complement”
Na página de formulário, clique no botão “Clear”, cole a sequência codificante na caixa de texto e clique no botão “Submit”
Obs. Verifique se a opção “reverse-complement” está selecionada
A sequência será mostrada no seu complemento reverso (fita oposta do DNA)
Copie a sequência complemento reverso e substitua a sequência no arquivo original
Salve o arquivo FASTA com todas as sequências verificadas e corrigidas com o nome nifHrevcom.fas e/ou nodCrevcom.fas
Abra o arquivo
Align → Edit/Build Alignment
Para as janelas de opções que surgirem, selecione:
Retrieve a sequence from a file
Em seguida, selecione o arquivo e clique no botão Open
Faça o alinhamento
Alignment → Align by MUSCLE
Selecione todas as sequências e aceite os parâmetros padrão para fazer o alinhamento
Use a opção Translated Protein Sequences para traduzir as sequências alinhadas
Obs. Mantenha a opção Standard para tradução de códons
Questão. As sequências foram traduzidas corretamente?
Questão. Se não, o que há de errado?
Questão. Como resolver o problema?
Volte para a aba DNA Sequences
Faça novamente o MSA usando a opção
Alignment → Align by MUSCLE (Codons)
Selecione todas as sequências e aceite os parâmetros padrão para fazer o alinhamento
Clique no botão Yes para a opção Would you like to remove gaps before alignments?
Clique no botão Ignore para a opção Stop Codon(s) are found in the translated sequences. Please select a correct Genetic Code or coding frame.
Use a opção Translated Protein Sequences para traduzir as sequências alinhadas Obs. Mantenha a opção Standard para tradução de códons Questão. Desta vez, as sequências foram traduzidas corretamente? Questão. O que há de diferente no alinhamento, comparado com o anterior? Obs. Note que no final do alinhamento, os códons de parada (“*”) não foram alinhados corretamente (faz mais sentido biológico que todos estejam alinhados); é possível ajustá-los manualmente, clicando em um códon de parada e inserindo caracteres de gap com a tecla de traço (“-”) do teclado
Siga os passos no tutorial anterior para construir uma árvore filogenética
Obs. O alinhamento pode ser exportado no formato MEGA para análise filogenética com as sequências de nucleotídeos ou de aminoácidos, usado a aba para tradução; construa árvores filogenéticas para os dois tipos de sequências e compare os resultados
Para a exportação das sequências de nucleotídeos, clique no botão Yes para a pergunta “Protein-coding nucleotide sequence data?”
Crie um MSA para cada conjunto de sequências
Use a opção de códons para as sequências codificantes
Exportar cada um dos alinhamentos no formato MEGA
Crie um diretório/pasta com o nome “concat”
Inclua todos alinhamentos neste diretório
Importe os alinhamentos para concatená-los no MEGA usando a opção
DATA → Concatenate Sequence Alignments
Abra o alinhamento concatenado para visualização
Crie os grupos “alphaRhizobia” e “betaRhizobia”
Questão. Qual o total de sítios? Sítios conservados? Sítios variáveis?
Questão. Identifique os intervalos correspondentes a cada gene.
Construa uma árvore filogenética e compare com os resultados anteriores
Questão. Os grupos formados foram os mesmos das árvores anteriores?
Questão. A árvore com os genes concatenados possui mais ramos confiáveis, quando comparada com as árvores para os genes isolados?