Ciência de Dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz

Marcel de Moraes Pedroso, Jefferson da Costa Lima, Vinicius Belchior Assef Neto

Resumo


O repositório institucional Arca é o principal instrumento de realização do acesso aberto na Fundação Oswaldo Cruz, tendo como missão reunir, hospedar, preservar, disponibilizar e dar visibilidade à produção intelectual da Instituição. A diversidade temática e a complexidade institucional da Fundação fomentam um desafio metodológico relacionado a classificação e recuperação dos objetos digitais depositados e a governança dos metadados registrados pelas comunidades que integram o repositório. Em 2016 o mecanismo de busca do Arca contabilizou mais de 400 mil consultas. É necessário um sistema de Recuperação da Informação que atenda as especificidades de indexação do repositório e a crescente demanda por informação por parte dos usuários internos e externos a Fiocruz. Neste trabalho propomos a utilização de ferramentas de Ciência de Dados, especialmente técnicas de Mineração de Dados e Aprendizagem de Máquina com o objetivo de aprimorar a Recuperação da Informação, por meio da classificação automática de objetos digitais depositados no Arca e o desenvolvimento e disponibilização de sistema de RI baseado em métricas de qualidade relacionadas aos conceitos de precisão e revocação.

Palavras-chave


Ciência de Dados; Armazenamento e Recuperação da Informação; Mineração de Dados; Aprendizagem de Máquina; Repositórios Institucionais.

Texto completo:

PDF


DOI: https://doi.org/10.29397/reciis.v11i0.1417

Apontamentos

  • Não há apontamentos.




e-ISSN 1981-6278 

Icict - Instituto de Comunicação e Informação Científica e Tecnológica em Saúde

Fundação Oswaldo Cruz | Ministério da Saúde
Av. Brasil, 4365 | Pavilhão Haity Moussatché | Manguinhos | CEP 21040-900
Rio de Janeiro | Brasil