Construindo árvore filogenética a partir de sequências biológicas com o programa MEGA

Para esta prática, utilize as sequências disponibilizadas nos arquivos separados. Os arquivos estão no formato FASTA e podem ser abertos em programas para manipulação e análise de sequências e também em programas do tipo bloco de notas.

Esta prática utiliza a versão 11 do programa MEGA (www.megasoftware.net). Diferenças podem ocorrer, caso uma versão diferente do programa seja utilizada.

Filogenia com sequências de DNA

Construindo uma árvore filogenética com sequências de genes ribossomais

Neste tutorial será utilizado o arquivo 16SrRNA.fas e/ou 23SrRNA.fas, contendo sequências para os genes do RNA ribossomal de 16S e 23S, respectivamente.


Preparando as sequências para análise


As moléculas de DNA são compostas de duas cadeias de nucleotídeos antiparalelas (sentidos das extremidades 5’ e 3’ opostos) e com as bases complementares (devido as ligações de hidrogênio entre as bases AT e CG). As sequências para os RNA ribossomais possuem sequência correspondente idênticas (trocando a base U por T) em uma das fitas do DNA, sendo necessário verificar se todas as sequência estão no sentido correto. A verificação abaixo deverá ser realizada para cada sequência, individualmente.

  1. Abra o arquivo das sequências codificantes no formato FASTA em um programa do tipo bloco de notas

  2. Copie a sequência FASTA

  3. Acesse programa BLAST em um navegador, no endereço https://blast.ncbi.nlm.nih.gov

    Escolha a opção BLASTN

    Marque a opção “Align two or more sequences” e espere a página recarregar

    Cole as sequências FASTA na caixa de texto superior

    Na caixa de texto inferior inclua a identificação CP032667, para a sequência genômica de Escherichia coli K12 substr MG1655 (usada como referência); nos espaços ao lado, em “Subject subrange”, inclua os valores em From 454613 e To 456166 (região genômica correspondente ao 16S rRNA)

    Obs. Para analisar as sequências 23S rRNA, utilize como referência a mesma identificação CP032667 com os valores From 454613 e To 456166

    Marque a opção “Show results in a new window” para que o resultado seja mostrado em uma nova janela

    Clique no botão “BLAST” para iniciar a busca

    Quando o resultado for mostrado, clique na aba “Alignments” e verifique se em ”Strand“ é observado ”Plus/Plus” (caso apareça “Plus/Minus”, verifique como corrigir a sequência abaixo)

    Verifique cada uma das sequências, alterando em “Results for

  4. Para as sequências com resultado BLASTN “Plus/Minus

    Copie a sequência FASTA correspondente

    Acesse a ferramenta online Sequence Manipulation Suite (SMS) no endereço https://www.bioinformatics.org/sms2

    No menu à esquerda, selecione a opção “Reverse Complement

    Na página de formulário, clique no botão “Clear”, cole a sequência codificante na caixa de texto e clique no botão “Submit

    Obs. Verifique se a opção “reverse-complement” está selecionada

    A sequência será mostrada no seu complemento reverso (fita oposta do DNA)

    Copie a sequência complemento reverso e substitua a sequência no arquivo FASTA original

  5. Salve o arquivo FASTA com todas as sequências verificadas e corrigidas com o nome 16SrRNArevcom.fas ou 23SrRNArevcom.fas


Construindo um MSA no programa MEGA


Dois programas independentes para Alinhamento Múltiplo de Sequências (MSA) estão incluídos e disponíveis no MEGA: Muscle e Clustal

  1. Importe as sequências

    Align → Edit/Build Alignment

    Selecione:

    Retrieve a sequence from a file

    Clique em OK e selecione o arquivo 16SrRNA.fas

  2. Alinhe as sequências

    Alignment → Align by MUSCLE

    Confirme a seleção para todas as sequências (“Select All?”)

    Mantenha os parâmetros padrão e clique em OK para gerar o alinhamento

  3. Exportando o MSA

    Para utilizar o MSA na construção de uma árvore filogenética é necessário exportá-lo antes no formato MEGA

    Data → Export Alignment → MEGA Format

    Salve o arquivo com o nome 16SrRNA.meg (salve no mesmo local do arquivo FASTA)

    Para a opção Input title of the data, inclua na caixa de texto 16S rRNA

    Para a opção Protein-coding nucleotide sequence data?, clique no botão NO

    Feche a janela contendo o MSA


Analisando o MSA


  1. A partir da janela principal do MEGA, abra o arquivo no formato MEGA salvo no etapa anterior

    File → Open A File/Session…

    E clique no ícone para DATA no menu horizontal para visualizar o alinhamento

    DATA → Explore Active Data

    Por padrão, o MSA é mostrado a partir da comparação com uma sequência consenso no topo (primeira linha); para todas as sequências no MSA, um ponto é mostrado caso a base seja idêntica àquela do consenso, caso contrário, a base diferente é mostrada

    Para visualizar todas as bases no MSA

    Display → Use Identical Symbol

  2. É importante verificar sempre o MSA e as informações contidas nele

    Para visualizar os sítios (colunas) que contém bases conservadas (idênticas)

    Highlight → Conserved Sites

    Questão. Como o programa trata as regiões de gap?

    Questão. Qual a porcentagem de sítios conservados? Dica. Verifique no rodapé da janela o item Conserved: (identifique os dois valores mostrados, separados por uma “/”)

    Agora, para verificar os sítios variáveis

    Highlight → Variable Sites

    Questão. Qual a porcentagem destes sítios?

    Use também a opção

    Highlight → Singletons Sites

    Questão. Qual a diferença em relação aos sítios variáveis?

  3. Crie grupos taxonômicos para as sequências

    1. Use a opção

      Data → Select & Edit Taxa/Groups…

      Na janela à esquerda aparece uma árvore iniciando em “All” que deverá estar selecionado

      Todas as sequências estão incluídas neste grupo “All” (experimente clicar na pequena seta apontando para baixo para fechar/expandir a árvore)

    2. Para criar um grupo, use o botão “New” no menu na parte de baixo da janela

      Nomeie o grupo como “AlphaRhizobia

      Com este grupo selecionado, selecione também todos os organismos pertencentes a classe das Alfaproteobactérias na janela à direita

      Dica. O banco de dados de taxonomia do NCBI (https://www.ncbi.nlm.nih.gov/taxonomy) pode ser usado para identificar as classes das bactérias; digite o nome da espécie no campo de busca

    3. Em seguida, clique no botão com uma seta apontada para a esquerda

      Os organismos selecionados não são mais mostrados na janela e uma pequena cabeça de seta aparece na frente do grupo “AlphaRhizobia” na janela à esquerda

      Clique para ver a lista de organismos

    4. Agora, na janela à esquerda, clique no grupo “All” para selecioná-lo e, usando o mesmo procedimento anterior, crie um grupo “BetaRhizobia” e inclua os organismos pertencentes a classe das Betaproteobactérias

      Quando os grupos estiverem prontos, clique no botão OK

    5. Na janela do MSA, para mostrar o grupo correspondente a cada sequência use a opção

      Display → Show Group Names

      Questão. Qual dos grupos está mais representado?

  4. Salvando o MSA com a informação para os grupos

    1. Use a opção

      Data → Export Data…

      Na janela aberta, mantenha as opções padrão e certifique-se de que o Formato MEGA está selecionado Salve o arquivo, substituindo o anterior, e para a opção “Do you want to view the result?” escolha “No

    2. Feche a janela para o MSA

  5. Calculando distâncias genéticas entre as sequências

    1. No menu horizontal, clique na opção

      DISTANCE → Compute Pairwise Distances…

      Para a pergunta “Would you lie to use the currently active data?”, clique no botão “Yes

      Na janela aberta ajuste as opções

      Model/Method (em SUBSTITUTION MODEL) para “p-distance

      Gaps/Missing Data Treatment (em DATA SUBSET TO USE) para “Partial deletion” e Site Coverage Cutoff (%) para “95

    2. Clique no botão OK

      As sequências aparecem numeradas na primeira coluna e os números correspondentes aparecem também na primeira linha

      Os valores na matriz indicam as distâncias p entre cada par de sequências no MSA e indica a proporção de bases diferentes entre cada par (o valor em porcentagem pode ser obtido multiplicando por 100)

      Questão. Qual o par de sequências mais próximo e mais distante nesse conjunto de dados?

    3. Feche a matriz de distâncias

    4. Agora use as opções abaixo e interprete os resultados

      DISTANCE → Compute overall Mean Distance…

      DISTANCE → Compute Within Group Mean Distance

      DISTANCE → Compute Between Group Mean Distance…

      Agora use as mesmas opções acima, mas na janela de parâmetros, teste a opção para Model/Method (em SUBSTITUTION MODEL) usando Jukes-Cantor model e também Kimura 2-parameter model e compare com os resultados anteriores

      Dica. É possível definir o melhor modelo de substituição para este conjunto de dados usando a opção Find Best DNA/Protein Models (ML)…

      Atenção! Se as sequências forem longas e/ou houver um grande número de sequência a análise pode ser demorada

      No resultado, os modelos são listados em uma tabela, do “melhor” para o “pior”

      Entretanto, a interpretação deste resultado está fora do escopo deste tutorial


Construindo uma árvore filogenética


A construção da árvore filogenética pode ser realizada através da opção PHYLOGENY no menu horizontal. Diferentes métodos estão disponíveis no programa MEGA e as abordagens e diferenças entre eles está fora do escopo deste tutorial.

  1. Para construir uma árvore filogenética baseada no método NJ

    PHYLOGENY → Construct/Test Neighbor-Joining Tree…

    Na janela aberta, altere as opções da seguinte forma

    (PHYLOGENY TEST) Test of Phylogeny → Bootstrap method

    No. of Bootstrap Replications → 1000

    (SUBSTITUTION MODEL) Substitutions Type → Nucleotide

    Model/Method → Jukes-Cantor model

    (DATA SUBSET TO USE) Gaps/Missing Data Treatment → Partial deletion (teste também outras opções)

    Site Coverage Cutoff (%) → 95

    Obs. O método sempre gera uma árvore sem raiz

    A árvore pronta aparecerá em uma nova janela e é possível alterar as opções na figura usando o menu horizontal superior ou a janela á esquerda

    Note que os grupos de sequências formados antes aparecerão automaticamente

    Questão. Houve separação entre os alfa e beta rizóbios?

    No sub-menuLayout” é possível ajustar o tipo de representação e a figura na tela

    Tente a opção “Auto-size Tree

    Os valores mostrados representam o teste de bootstrap para cada nó, em porcentagem

    Para remover os valores da figura, remova a marcação no menu em “Statistics/Frequancy/Info

    Marque no menu a opção “Branch lengths

    Note que agora são mostrados os valores para os comprimentos de ramos na árvore

    Marque, no menu, a opção “Display Caption” e verifique os detalhes que são apresentados no texto descrevendo a análise filogenética; estas informações são importantes para interpretação e reprodução da análise e sempre devem ser usadas na descrição da metodologia

    Mais detalhes sobre a análise pode ser obtidos com a opção

    File → Show Info

    Uma janela com duas colunas aparecerá; clique na aba SUMMARY e identifique as informações

    Questão. Quantas sequências foram usadas na análise?

    Questão. Quantos sítios contém o alinhamento usado na análise?

    Questão. Quantas replicatas bootstrap foram geradas?

    Questão. Qual foi o modelo de substituição usado?

    Questão. Qual a soma de comprimento de ramos (SBL) obtido para a árvore? Obs. O parâmetro para otimização de uma árvore no método NJ é obter a árvore com o menor SBL (Sum of Branch Lengths): menor o SBL, “melhor” a árvore

    Clique na aba “Bootstrap consensus Tree

    Questão. Como esta árvore é gerada e qual a diferença em relação a árvore da aba “Original Tree”?

    Questão. Os grupos formados nesta árvore são os mesmos da árvore na aba “original Tree”?

  2. Salve a árvore obtida

    File → Export Current Tree (Newick)

    Na janela aberta, caso deseje incluir os valores de bootstrap, marque a opção

    Obs. No formato Newick a árvore é representada por um texto, com as sequências agrupadas por parênteses, e será mostrada em uma nova janela

    Salve este arquivo

    File → Save As…

    Salve o arquivo com o nome 16SrRNA.nwk, no mesmo local dos arquivos de MSA

    Para entender como o formato Newick representa a árvore, tente gerar o desenho da árvore a partir do texto abaixo

    (((A,B),C),(D,E));

Construindo uma árvore filogenética com sequências codificantes

As sequências codificantes (CDS) são regiões nas sequências de DNA dos genes que correspondem às regiões de códons no RNA mensageiro. Desta forma, na análise filogenética a partir de sequências codificantes, é importante considerar e manter a estrutura de códons.

Neste tutorial poderá ser utilizado os arquivos nifH.fas e/ou nodC.fas, contendo sequências codificantes dos genes nifH e nodC, que codificam para as proteínas ferro nitrogenase (ou dinitrogenase redutase) e quito-oligosacarídeo sintase NodC, envolvidas nos processos de fixação biológica de nitrogênio e nodulação em leguminosas, respectivamente.


Preparando as sequências para análise


As moléculas de DNA são compostas de duas cadeias de nucleotídeos antiparalelas (sentidos das extremidades 5’ e 3’ opostos) e com as bases complementares (devido as ligações de hidrogênio entre as bases AT e CG). As sequências codificantes ocorrem em uma das fitas do DNA, sendo necessário verificar se todas as sequência estão no sentido correto. Devido as sequências codificantes conterem uma estrutura em códons, também é necessário verificar se esta estrutura está mantida (fase de leitura), principalmente quando as sequências não contém o gene completo. A verificação abaixo deverá ser realizada para cada sequência, individualmente.

  1. Abra o arquivo das sequências codificantes no formato FASTA em um programa do tipo bloco de notas

  2. Copie a sequência FASTA

  3. Acesse programa BLAST em um navegador, no endereço https://blast.ncbi.nlm.nih.gov

    Escolha a opção BLASTX

    Cole a sequência FASTA na caixa de texto “Enter accession number(s), gi(s), or FASTA sequence(s)

    Marque a opção “Show results in a new window” para que o resultado seja mostrado em uma nova janela

    Clique no botão “BLAST” para iniciar a busca

    Quando o resultado for mostrado, clique na aba “Alignments

    Para o primeiro alinhamento, verifique a informação em “Frame” (fase de leitura)

    Se o valor for “+1”, a sequência está pronta para análise

    Se o valor for “-1”, a sequência deverá ser alterada (ver abaixo)

  4. Para as sequências com “Frame -1

    Copie a sequência FASTA

    Acesse a ferramenta online Sequence Manipulation Suite (SMS) no endereço https://www.bioinformatics.org/sms2

    No menu à esquerda, selecione a opção “Reverse Complement

    Na página de formulário, clique no botão “Clear”, cole a sequência codificante na caixa de texto e clique no botão “Submit

    Obs. Verifique se a opção “reverse-complement” está selecionada

    A sequência será mostrada no seu complemento reverso (fita oposta do DNA)

    Copie a sequência complemento reverso e substitua a sequência no arquivo original

  5. Salve o arquivo FASTA com todas as sequências verificadas e corrigidas com o nome nifHrevcom.fas e/ou nodCrevcom.fas


Criando o MSA


  1. Abra o arquivo

    Align → Edit/Build Alignment

    Para as janelas de opções que surgirem, selecione:

    Retrieve a sequence from a file

    Em seguida, selecione o arquivo e clique no botão Open

  2. Faça o alinhamento

    Alignment → Align by MUSCLE

    Selecione todas as sequências e aceite os parâmetros padrão para fazer o alinhamento

  3. Use a opção Translated Protein Sequences para traduzir as sequências alinhadas

    Obs. Mantenha a opção Standard para tradução de códons

    Questão. As sequências foram traduzidas corretamente?

    Questão. Se não, o que há de errado?

    Questão. Como resolver o problema?

    Volte para a aba DNA Sequences

  4. Faça novamente o MSA usando a opção

    Alignment → Align by MUSCLE (Codons)

    Selecione todas as sequências e aceite os parâmetros padrão para fazer o alinhamento

    Clique no botão Yes para a opção Would you like to remove gaps before alignments?

    Clique no botão Ignore para a opção Stop Codon(s) are found in the translated sequences. Please select a correct Genetic Code or coding frame.

  5. Use a opção Translated Protein Sequences para traduzir as sequências alinhadas Obs. Mantenha a opção Standard para tradução de códons Questão. Desta vez, as sequências foram traduzidas corretamente? Questão. O que há de diferente no alinhamento, comparado com o anterior? Obs. Note que no final do alinhamento, os códons de parada (“*”) não foram alinhados corretamente (faz mais sentido biológico que todos estejam alinhados); é possível ajustá-los manualmente, clicando em um códon de parada e inserindo caracteres de gap com a tecla de traço (“-”) do teclado


Construindo uma árvore filogenética


  1. Siga os passos no tutorial anterior para construir uma árvore filogenética

    Obs. O alinhamento pode ser exportado no formato MEGA para análise filogenética com as sequências de nucleotídeos ou de aminoácidos, usado a aba para tradução; construa árvores filogenéticas para os dois tipos de sequências e compare os resultados

    Para a exportação das sequências de nucleotídeos, clique no botão Yes para a pergunta “Protein-coding nucleotide sequence data?


Construindo árvore filogenética com alinhamentos concatenados


  1. Crie um MSA para cada conjunto de sequências

    Use a opção de códons para as sequências codificantes

  2. Exportar cada um dos alinhamentos no formato MEGA

  3. Crie um diretório/pasta com o nome “concat

    Inclua todos alinhamentos neste diretório

  4. Importe os alinhamentos para concatená-los no MEGA usando a opção

    DATA → Concatenate Sequence Alignments

    Abra o alinhamento concatenado para visualização

    Crie os grupos “alphaRhizobia” e “betaRhizobia

    Questão. Qual o total de sítios? Sítios conservados? Sítios variáveis?

    Questão. Identifique os intervalos correspondentes a cada gene.

  5. Construa uma árvore filogenética e compare com os resultados anteriores

    Questão. Os grupos formados foram os mesmos das árvores anteriores?

    Questão. A árvore com os genes concatenados possui mais ramos confiáveis, quando comparada com as árvores para os genes isolados?