BANCO DE DADOS E MINERAÇÃO DE DADOS EM BIOINFORMÁTICA

0055

Aluno de Iniciação Científica: Ana Paula Sandoval Carlos (PIBIC/CNPq)

Curso: Informatica Biomédica (TN)

Orientador: Jeroniza Nunes Marchaukoski

Departamento: Escola Técnica da UFPR

Setor: Setor de Educação Profissional e Tecnológica

Área de Conhecimento: 10303030


RESUMO

Com o avanço da tecnologia, o crescimento das informações através da produção de dados é exorbitante. Em se tratando de dados biológicos, como a genômica e proteômica, o contingente é ainda maior. O desafio posto na manipulação, armazenamento e administração desses dados complexos instiga a busca de soluções eficazes que necessitam de grande capacidade e velocidade de processamento e análise das informações na área da Bioinformática, de grande valia para a contribuição do progresso das Ciências Biológicas. Com a proposta de desenvolver novas pesquisas e técnicas no armazenamento e recuperação de dados biológicos complexos, este estudo trata da modelagem desses, definindo arquiteturas de banco de dados para o gerenciamento de grandes volumes de informação e estratégias de mineração. Os objetivos deste; estudo das técnicas de integração banco de dados e modelagem de dados complexos, estudo de algoritmos genéticos e redes neuronais, extração de características de dados biológicos complexos e modelagem, construção de estratégias e algoritmos para a mineração de dados biológicos nos bancos construídos e também em banco de dados públicos, GenBank NCBI, EMBL, DDBJ. Ao verificar os bancos, observou-se a redundância ocasionada por erros de anotação de genes ou informações repetidas de diferentes formas. Os comandos de inserção e comparação dos dados no banco de dados dos repositórios foram alterados de forma a facilitar o entendimento. Neste trabalho, o identificador ‘gi' do NCBI foi utilizado como referência para integrar os dados das bases de dados públicas NCBI, PFAM e COG, das proteínas em estudo. Uma nova base de dados integradora foi desenvolvida utilizando-se o Sistema Gerenciador de Banco de Dados MySQL, linguagem de programação C e interface para a manipulação de dados em MATLAB. Com os bancos de dados públicos (NCBI, PFAM e COG) integrados, as consultas às informações de proteína são extraídas de forma transparente e mais rapidamente, já que não é necessária a consulta aos bancos de dados individualmente. As pesquisas e manipulação das informações das proteínas são realizadas no MATLAB através de comandos da linguagem de Banco de Dados SQL e também com funções próprias do MATLAB, o que eu torna acesso aos dados mais facilitado, pois a interface do MATLAB é mais amigável e, dinâmico pois os dados podem ser acessados em um único local.

Palavras-chave: Bioinformática, Anotação Gênica, Bancos de Dados