1. 2015 - Atual. An Active Learning Approach to Match Networked Schemas. (Coordenador)

    Descrição: Given a set of schemas in the same domain, our main goal is to develop and evaluate a method to enable the integration of the schemas by establishing which pairs of schema elements have the same semantics (a matching) using classifiers and active learning, such that the established matchings must obey the network?s constraints that guarantees the logical integrity of the matching schemas.

    Integrantes(es): Altigran Soares da Silva; Diego Rodrigues

    Financiador(es): Google Inc.

  2. 2014 - Atual. eSpot - Enriquecimento de Entidades com Aspectos Extraídos de Comentários On-Line. (Coordenador)

    Descrição: Neste projeto propõe-se o desenvolvimento de métodos e técnicas para explorar o conteúdo veiculado no texto de comentários escritos por usuários para continuamente enriquecer o conhecimento disponível sobre entidades representadas em banco de dados com aspectos extraídos destes comentários. Nossa motivação é tirar proveito do vasto conteúdo gerado por usuários de forma espontânea em Web sites, fóruns, redes sociais, blogs, etc. e que descrevem aspectos variados sobre diversos tipos de entidades tais como produtos de varejo, hotéis, programas de TV, filmes, livros, jogos, escolas, professores, etc. Tais aspectos têm crescido cada vez mais em relevância e importância, pois cada vez mais usuários baseiam suas escolhas e decisões de consumo em comentários de outros usuários. Embora úteis e disponíveis publicamente, a identificação das entidades-alvo dos comentários e a extração de seus aspectos é uma tarefa desafiadora dada a escala dos conteúdos e a sua natureza não estruturada ou pouca estruturada, caracterizada por textos com baixa qualidade de escrita e muito ruído. Além da extração das entidades-alvo e aspectos, é necessário ainda identificar corretamente as correspondências entre as entidades-alvo extraídas e as entidades do banco de dados. Essa tarefa é também desafiadora porque as menções de entidades feitas em comentários de usuários são bastante ambíguas, sendo que uma mesma entidade pode ser mencionada usando diversas formas alternativas. Assim, neste projeto focamos em três problemas principais relacionados ao tema: (1) coleta automática e continuada dos comentários disponível em fontes on-line, (2) extração robusta e escalável de menções de entidades-alvo, possivelmente referenciadas através de formas alternativas, e também de aspectos relacionados a estes entidades-alvo, presentes em comentários de usuários e (3) pareamento das entidades-alvo e suas formas alternativas com entidades únicas representadas em bancos de dados.

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti; André Luiz da Costa Carvalho; David Fernandes; de Carvalho, Moises G.; Marco Antônio Pinheiro de Cristo

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  3. 2014 - Atual. eVox-Mobilidade - Explorando opiniões em mídias sociais digitai. (Participante)

    Descrição: Cada vez mais pessoas trocam informações através de mídias sociais com uma rica variedade de possibilidades de interação. Tais mídias permitem a disponibilização de conteúdo diversificado, geralmente criado pelo próprio usuário, usando mecanismos de comunicação altamente acessíveis e escaláveis. Neste contexto, cada vez mais usuários difundem e confiam em opiniões publicadas por outros usuários sobre os mais diversos tópicos e veiculadas das mais diversas formas. Entre elas, uma de particular interesse neste projeto, são as comunidades de conteúdo dedicadas à publicação de revisões relacionadas com produtos e serviços. Tais revisões são importantes porque têm enorme impacto em decisões de consumo, na medida em que auxiliam os consumidores em seus processos de escolha e dão aos fornecedores importantes subsídios sobre os itens que eles oferecem. Assim, compreender conteúdo de revisões e suas interações pode fornecer importantes subsídios para uma variedade de aplicações de grande interesse. Contudo, realizar tais estimativas é uma tarefa particularmente desafiadora, dada a escala dos conteúdos e a sua natureza não estruturada ou pouca estruturada, caracterizada por textos com baixa qualidade de escrita e muito ruído. Além disso, muitas vezes, o próprio conteúdo é falso ou construído intencionalmente para influenciar a opinião dos usuários de acordo com interesses que lhes são alheios (spam). Assim, neste projeto, estudamos o problema de detecção de padrões em conjuntos de opiniões, em particular, associadas com revisões de produtos e serviços. Mais especificamente, estudamos problemas relacionados com os três grandes desafios de pesquisa: (1) fornecimento de uma infraestrutura escalável para a coleta, armazenamento e busca de revisões; (2) descoberta de conhecimento relacionado com as opiniões e (3) aplicação do conhecimento adquirido em tarefas como previsão e detecção de tendências, busca e apresentação de informação, recomendação de produtos, serviços e informação, precificação de itens e enriquecimento de informação. Como resultado, esperamos adquirir conhecimento relacionado ao desenvolvimento de um ambiente para a identificação, coleta e armazenamento eficaz de opiniões, propor e avaliar novos algoritmos e modelos para a compreensão destas opiniões e transferir a tecnologia gerada para empresas interessadas. Este projeto é de grande relevância para região ao fomentar o desenvolvimento e fixação de mão de obra em métodos de aquisição e aplicação de conhecimento, uma área estratégica e de crescente interesse econômico. Finalmente, a tecnologia desenvolvida pode ser útil para a formação de novos negócios na região. Editais 015/2013 FAPEAM/PROTI-AMAZÔNIA R$ 78.372,00

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos B Cavalcanti; André Luiz da Costa Carvalho; Moises Carvalho; David Fernandes; Marco Antônio Pinheiro de Cristo

    Financiador(es):

  4. 2014 - Atual. eVox-Pesquisa - Explorando opiniões em mídias sociais digitai. (Participante)

    Descrição: Cada vez mais pessoas trocam informações através de mídias sociais com uma rica variedade de possibilidades de interação. Tais mídias permitem a disponibilização de conteúdo diversificado, geralmente criado pelo próprio usuário, usando mecanismos de comunicação altamente acessíveis e escaláveis. Neste contexto, cada vez mais usuários difundem e confiam em opiniões publicadas por outros usuários sobre os mais diversos tópicos e veiculadas das mais diversas formas. Entre elas, uma de particular interesse neste projeto, são as comunidades de conteúdo dedicadas à publicação de revisões relacionadas com produtos e serviços. Tais revisões são importantes porque têm enorme impacto em decisões de consumo, na medida em que auxiliam os consumidores em seus processos de escolha e dão aos fornecedores importantes subsídios sobre os itens que eles oferecem. Assim, compreender conteúdo de revisões e suas interações pode fornecer importantes subsídios para uma variedade de aplicações de grande interesse. Contudo, realizar tais estimativas é uma tarefa particularmente desafiadora, dada a escala dos conteúdos e a sua natureza não estruturada ou pouca estruturada, caracterizada por textos com baixa qualidade de escrita e muito ruído. Além disso, muitas vezes, o próprio conteúdo é falso ou construído intencionalmente para influenciar a opinião dos usuários de acordo com interesses que lhes são alheios (spam). Assim, neste projeto, estudamos o problema de detecção de padrões em conjuntos de opiniões, em particular, associadas com revisões de produtos e serviços. Mais especificamente, estudamos problemas relacionados com os três grandes desafios de pesquisa: (1) fornecimento de uma infraestrutura escalável para a coleta, armazenamento e busca de revisões; (2) descoberta de conhecimento relacionado com as opiniões e (3) aplicação do conhecimento adquirido em tarefas como previsão e detecção de tendências, busca e apresentação de informação, recomendação de produtos, serviços e informação, precificação de itens e enriquecimento de informação. Como resultado, esperamos adquirir conhecimento relacionado ao desenvolvimento de um ambiente para a identificação, coleta e armazenamento eficaz de opiniões, propor e avaliar novos algoritmos e modelos para a compreensão destas opiniões e transferir a tecnologia gerada para empresas interessadas. Este projeto é de grande relevância para região ao fomentar o desenvolvimento e fixação de mão de obra em métodos de aquisição e aplicação de conhecimento, uma área estratégica e de crescente interesse econômico. Finalmente, a tecnologia desenvolvida pode ser útil para a formação de novos negócios na região. Editais 016/2013 FAPEAM/PROTI-AMAZÔNIA R$ 243.272,98

    Integrantes(es): Altigran Soares da Silva; João Marcos B Cavalcanti; André Luiz da Costa Carvalho; David Fernandes; de Moura, Edleno S.; de Carvalho, Moises G.; Marco Antônio Pinheiro de Cristo

    Financiador(es): Fundação de Amparo a Pesquisa do Estado do Amazonas

  5. 2012 - 2016. Técnicas para Tratamento de Documentos Semi-estruturados na Web. (Coordenador)

    Descrição: Neste projeto enfocamos o desenvolvimento de métodos e técnicas para obter, extrair e utilizar informações (semi) estruturados que estão implicitamente disponíveis dentro do vasto conteúdo textual não-estruturado da Web. Trabalhos que buscam explorar de forma efetiva os dados estruturados disponíveis na Web têm surgido na literatura há pelo menos uma década. Mais recentemente, com o avanço do estado-da-arte de áreas como recuperação de informação, aprendizagem de máquina e mineração de dados, este tema ganhou um novo impulso e novos projetos têm surgido tanto na academia quanto na indústria. De fato, o tema tem crescido em importância na comunidade científica nos últimos anos, o que pode ser comprovado pelo espaço considerável que veículos de publicação importantes de áreas de pesquisa como bancos de dados, recuperação de informação e inteligência artificial têm devotado pra trabalhos de pesquisa a ele relacionados. Isso se justifica não apenas pelos problemas desafiadores que se apresentam, mas principalmente pela crescente demanda da indústria para solução de problemas relacionados a este domínio. Isso faz com que os resultados de pesquisa nesta área sejam não somente imediatamente aplicáveis como realimentem continuamente a investigação científica em torno dela. EDITAL N. 009/2011 - FAPEAM/PRONEM - R$ 277.789,81

    Integrantes(es): Altigran Soares da Silva; João Marcos B Cavalcanti; Daniel R. Fernandes; de Moura, Edleno S.; Marco Antônio Pinheiro de Cristo

    Financiador(es):

  6. 2011 - 2013. DOMAR - Extração de Dados em Fontes Textuais de Domínios Arbitrários na Web. (Coordenador)

    Descrição: Neste projeto propomos a utilização do vasto volume de dados presentes em fontes de conhecimento de domínio disponíveis na Web, tais como Wikipedia e Freebase,para viabilizar o emprego de métodos não-supervisionados de IETS em aplicações de extraçãoem domínios arbitrários, ou seja, nas quais os domínios não estejam previamente especificados.Apesar do seu grande potencial, tal abordagem não tem sido estudada apropriadamente na literatura recente. O projeto envolve vários sub-problemas desafiadores relacionaods, a saber: (1) coleta automática e continuada dos dados disponível nas fontes; (2) organização destes dados de forma semanticamente coerente para composição de bases de conhecimento; (3) construção de bases de conhecimento para cada aplicações de extração; (4) avaliação da qualidade dos dados coletados para a utilização em tarefas de IETS e a aplicação de métodos para, quando necessário, garantir esta qualidade. Processo 476798/2011-6, CNPq/Universal 14/2011 - Faixa C. R$ 148.720,00

    Integrantes(es): Altigran Soares da Silva

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  7. 2010 - 2013. Acordo Brasil-Índia - Pesquisas Conjuntas - Área de Computação. (Participante)

    Descrição: O objetivo geral deste projeto é o desenvolvimento de atividades de pesquisa científica, tecnológica e de inovação na área de Computação envolvendo grupos de pesquisa do Brasil e da Índia, mediante apoio financeiro a projetos de pesquisa em cooperação. Também é esperado o intercâmbio de pesquisadores e estudantes entre as instituições participantes visando a troca de experiências na formação de mão-de-obra altamente qualificada para pesquisa e desenvolvimento em Tecnologia de Informação.CNPq Processo 49.0441/2009-2 R$ 350.000,00

    Integrantes(es): Altigran Soares da Silva; Alberto Henrique Frade Laender; Virgilio Almeida; Amit Bhaya; Edmundo de Souza e Silva; Jose Roberto Boisson de Marca; Roberto M. Cesar-Jr; José Carlos Maldonado

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  8. 2010 - 2013. Extração de Informação em Fontes Textuais. (Coordenador)

    Descrição: Este projeto é uma continuação do projeto financiado no ano de 2010 pelo Programa UOL Bolsa Pesquisa. Visa à extensão, formalização e divulgação de uma nova abordagem para extração não-supervisionada de informações disponíveis em fontes textuais genéricas, a qual foi desenvolvida no projeto passado. Pretendemos estender nossa abordagem em três aspectos principais: (1) Simultaneamente à extração das informações, descobrir e extrair a estrutura de objetos complexos presentes em fontes textuais (tabelas, listas, registros), o que é uma limitação real identificada nos atuais métodos de extração e que prejudica a total automatização do processo; (2) Atualmente a extração não-supervisionada (sem a interferência do usuário) com nossa abordagem alcança altos níveis de qualidade (acima de 90% em medida F). Para atingir níveis mais próximos a 100% pretendemos desenvolver técnicas baseadas em Relevance Feedback e Active Learning para incorporar de forma inteligente e não intensiva o julgamento do usuário ao processo de extração; (3) Nossa abordagem depende da construção prévia de bases de conhecimento no domínio das informações a serem extraídas. Pretendemos desenvolver uma série de técnicas para obtenção destas bases de forma massiva a partir de bases estruturadas disponíveis na Web (p.ex., Wikipedia).

    Integrantes(es): Altigran Soares da Silva; Eli Cortez

    Financiador(es): Universo Online

  9. 2010 - 2013. Modelos e algoritmos para tratamento de informações sociais em tempo real. (Participante)

    Descrição: A Computação Social impõe uma série de tarefas e desafios para a Ciência da Computação. Entre os principais desafios podemos incluir: (1) a busca por plataformas computacionais que possibilitem o processamento escalável de grandes quantidades de dados, (2) a busca por estratégias de coleta e extraçãode dados que sejam eficazes e eficientes, (3) a busca por modelos e algoritmos capazes de realizar an'{a}lises de quantidades massivas de dados em tempo real sem comprometer a privacidade dos indivíduos, e (4) a busca por maneiras de visualizar a informaçãoprovida pelas diversas formas de análise. Em conjunto, a busca por soluções a estes desafios motivam o projeto aqui proposto. O principal objetivo desse projeto é criar uma plataforma que satisfaça aos requisitos numerados acima, propondo soluções para cada um dos desafios propostos. Essa plataforma será avaliada através do monitoramento de eventos esportivos na internet, como as Olimpíadas de 2012 e a Copa do Mundo de 2014. PDI/CNPq/2010. Processo 56.0286/2010-4. R$ 299.786,32

    Integrantes(es): Altigran Soares da Silva; Wagner Meira Junior; Renato Antônio Celso Ferreira; Dorgival Olavo Guedes Neto; Virgilio Almeida; Marden Neubert; Gisele Papa; Adriano Veloso; Adriano Pereira

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  10. 2009 - 2011. Integrando técnicas de mineração de dados e texto em groupware. (Coordenador)

    Descrição: A compreensão e a formalização dos aspectos envolvidos na produção e recuperação de artefatos digitais requerem uma fundamentação teórico-metodológica e um conjunto de ferramentas para elicitação, organização e manuseio do conhecimento. Neste projeto, propõe-se a investigação e utilização de técnicas de mineração de dados e textos aplicadas a groupware. Edital MCT/CNPq/CT-Amazônia 2008 Proc. 575553/2008-1 R$119,317.64

    Integrantes(es): Altigran Soares da Silva; Crediné Silva de Menezes; Alberto Nogueira de Castro Junior; Bruno Freitas Gadelha; Thais Helena Chaves de Castro; Marcos André Fernandes Spósito; Hugo Fuks

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  11. 2009 - 2012. Busca e Classificação de Imagens com Combinação de Múltiplas Características. (Participante)

    Descrição: Neste projeto serão estudadas soluções para busca e classificação de imagens, tendo como base os problemas de detecção de desmatamento de imagens de satélite e/ou radar e a identificação de versões de imagens associadas a crimes. É esperado que ao longo dos três anos de trabalho, novas aplicações sejam identificadas, onde nossa abordagem possa ser aplicada. Ao final do projeto esperamos ter desenvolvido um conjunto de soluções que formem um arcabouço geral para ajudar na resolução de problemas de busca e classificação de imagens. CNPq - Edital CT-AMAZONIA/MCT/CNPq nº 55/2008 R$ 72.434,00

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; Marcos A. Gonçalves; João Marcos B Cavalcanti; Ricardos Torres

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  12. 2009 - 2014. INWeb - Instituto Nacional de Pesquisa da Web. (Participante)

    Descrição: Neste projeto, partimos de uma visão unificada da Web como sendo constituída de três camadas interdependentes de redes de relacionamentos complexas e dinâmicas pelas quais a informação flui e é disseminada. A camada constituída pelas interações sociais proporcionadas pela Web cria demandas sobre a camada de serviços por meio dos quais estas interações são realizadas. A camada de serviços, por sua vez, impõe demandas adicionais sobre a camada de infra-estrutura da Web. Essas três camadas de redes compreendem um conjunto de interações entre pessoas, objetos informacionais, serviços e componentes de software e hardware. A nossa proposta de pesquisa pretende contribuir com resultados inéditos nas três camadas de redes citadas. Para tal, pretendemos trabalhar e desenvolver soluções para três grandes desafios identificados a partir dessa visão unificada da Web: (i) Identificação, caracterização e modelagem de interesses e padrões de comportamento das pessoas na Web e das redes estabelecidas entre elas; (ii) Tratamento da informação que circula pelas diversas redes da Web, considerando as atividades de coleta, extração e processamento da informação; (iii) Entrega da informação de forma satisfatória e independente de tempo e localização geográfica. Na nossa proposta relacionada à formação de recursos humanos, pretendemos formar um número expressivo de doutores, mestres e graduados. Consideramos a formação desses profissionais e pesquisadores como um dos principais resultados da proposta, pois abrirá grandes possibilidades de desenvolvimento da área no futuro. As instituições participantes incluem dois programas de pós-graduação em Ciência da Computação nível 6 na Capes (UFMG e UFRGS) e um programa nível 4 (UFAM), além de um grupo emergente associado a um programa de mestrado em Modelagem Matemática e Computacional (CEFET/MG). CNPq Edital N º 15/2008 -MCT/CNPq/FNDCT/CAPES/ FAPEMIG/FAPERJ/FAPESP INSTITUTOS NACIONAIS DE CIÊNCIA E TECNOLOGIA. R$ 2.997.346,60

    Integrantes(es): Altigran Soares da Silva; Berthier Ribeiro Neto; Alberto Henrique Frade Laender; Edleno Silva de Moura; Nívio Ziviani; Wagner Meira Junior; Marcos A. Gonçalves; João Marcos Bastos Cavalcanti; Renato Antônio Celso Ferreira; Clodoveu B Davis; João Marcos B Cavalcanti; Viviane Orengo; Virgilio Almeida

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  13. 2008 - 2010. Recuperação de Informação na Web Invisível. (Coordenador)

    Descrição: Este projeto tem objetivo a alocação de recursos para apoiar as atividades de pesquisa conjuntamente desenvolvidas desde 2005 entre o Grupo de Tecnologia da Informação da Universidade Federal do Amazonas (GTI/UFAM) e o Data Management Group da University of Utah (DMG/UUTAH) em torno de temas relacionados à recuperação de informação e gerência de dados na assim chamada Web Invisível (Hidden Web). As atividades de pesquisa serão concentradas em duas linhas principais de investigação relacionada a problemas de recuperação de informação na Web Invisível: Geração de coletores de páginas ricas em dados visando alimentar extratores de dados (Linha 1) e Organização automática de formulários visando a construção de meta-buscadores (Linha 2). Edital CNPq/NSF 2007 Proc 490199/2007-0 R$49,000.00

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti; Juliana Freire

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  14. 2008 - 2009. PMS - Plataforma Multiserviços. (Participante)

    Descrição: A PMS integra um sistema de software com a infra-estrutura de telefonia, que provê uma interface (Web) de aplicações para os usuários. As aplicações envolvem menu de opções do portal de voz, registro da navegação do usuário pelo menu de opções, relatórios sobre estatísticas de uso do portal de voz, entre outras. O projeto aqui proposto prevê um estudo aprofundado de soluções para o desenvolvimento da PMS-Trópico e uma avaliação da solução atual, propondo alterações quando necessário. Estão previstas ainda as ativi-dades de desenvolvimento da solução/alterações propostas neste projeto e o desenvolvimento de novas funcionalidades de acordo com requisitos dos clientes da Trópico. Trópico Telecomunicações R$ 228.009,61

    Integrantes(es): Altigran Soares da Silva; João Marcos B Cavalcanti

    Financiador(es): Trópico Telecomunicações da Amazônia

  15. 2008 - 2009. Sistema de Recomendação para TV Digital Móvel. (Participante)

    Descrição: Este projeto em parceria com o Instituto Nokia de Tecnlogia - INdT - tem como objetivo geral o desenvolvimento de um Sistema de Recomendação para o ambiente de TV Digital Móvel, com aprendizado automático das preferências do usuário. Para isso, as seguintes tarefas devem ser realizadas: - Estudo de técnicas do estado-da-arte na área de Recuperação de Informação para a aplicação no problema de recomendação em TV Digital Móvel; - Definição da arquitetura de recomendação para o problema em questão; - Aplicar conceitos de aprendizagem de máquina para inferir as preferências dos usuários com o mínimo de interação deste com o sistema; - Experimentação prática para validação do modelo. Com esse trabalho, esperamos contribuir diretamente em pelo menos dois aspectos específicos. Primeiro, adequar as técnicas de recomendação para o ambiente de TV Digital móvel. Em segundo lugar, tornar o processo de detecção das preferências dos usuários o mais automatizado possível.

    Integrantes(es): Altigran Soares da Silva; João Marcos B Cavalcanti

    Financiador(es): Instituto Nokia de Tecnologia

  16. 2007 - 2010. InfoWeb - Métodos e Ferramentas para Tratamento de Informação. (Coordenador)

    Descrição: A Web é hoje o maior repositório de informação digital produzida pelo ser humano, estando distribuído por milhões servidores conectados ao redor do mundo via Internet. O domínio de tecnologias capazes de tirar proveito desse repositório representa um diferencial de competitividade dentro da sociedade moderna, gerando oportunidades de desenvolvimento econômico e social. Este projeto visa desenvolver novos métodos e ferramentas para tratamento de informação existente em grandes repositórios de dados e coleções de documentos disponíveis na Web. O projeto pretende gerar soluções para diversos problemas relacionados ao tratamento de informação, tais como classificação de texto, mineração de dados a partir de fontes não estruturadas, integração de dados de fontes heterogêneas, enriquecimento semântico de dados, indexação e busca, dentre outros. CNPq/CT-INFO R$ 710.322,24

    Integrantes(es): Altigran Soares da Silva; Nivio Ziviani; Alberto Henrique Frade Laender; Wagner Meira Junior; Marcos A. Gonçalves; João Marcos Bastos Cavalcanti; Carlos Alberto Heuser; Mara Abel; Renato Antônio Celso Ferreira; de Moura, Edleno S.

    Financiador(es):

  17. 2006 - 2008. 5SVQ - Uso do Arcabouço 5S para Desenvolvimento de uma Nova Geração de Bibliotecas Digitais. (Participante)

    Descrição: O potencial educacional e de preservação e disseminação cultural e científica existente nas bibliotecas digitais é inegável. Tal potencial é ainda mais relevante no Brasil, onde bibliotecas digitais podem atuar como ferramentas de apoio a soluções de problemas específicos do país tais como exclusão digital, analfabetismo, má preparação de educadores e falta de material educacional de qualidade, má preservação da memória nacional, falta de divulgação do conhecimento científico produzido pelas universidades e transferência tecnológica, para citar uns poucos. O avanço e o crescimento da pesquisa na área de bibliotecas digitais remonta aos primórdios da Web. O enorme crescimento da área pode ser constatado pelos milhões de dólares investidos em centenas de projetos de pesquisa e desenvolvimento nos EUA, Europa e outros países do mundo na última década. Diferentemente da Web, a informação em bibliotecas digitais é explicitamente criada, organizada, gerenciada e mantida, geralmente visando um comunidade alvo específica. A informação coletada em bibliotecas digitais tem portanto um maior potencial de valor agregado para estas comunidades. A contrução e manutenção de bibliotecas digitais é, contudo, uma tarefa não trivial. As técnicas e ferramentas a serem desenvolvidas nesse projeto pretendem ao mesmo tempo facilitar a construção desse tipo de sistema, principalmente por não-especialistas, e garantir que os sistemas contruídos tenham alta qualidade e valor agregado para o seu público-alvo. Esta projeto é focado em uma aplicação-chave, bibliotecas digitais, com instâncias definidas, inclui o desenvolvimento de componentes de software para geração de protótipos de bibliotecas digitais e engloba pesquisa básica e experimentação em algoritmos de mineração de dados, paralelismo, e em algoritmos adaptativos bem como modelos teórico-formais de bibliotecas digitais.

    Integrantes(es): Altigran Soares da Silva; Alberto Henrique Frade Laender; Edleno Silva de Moura; Wagner Meira Junior; Marcos A. Gonçalves; João Marcos B Cavalcanti; Pável P. Calado

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  18. 2006 - 2008. ADAPTINF - Algoritmos Adaptativos para Recuperação de Informação. (Coordenador)

    Descrição: Hoje em dia, com o desenvolvimento a baixo custo de sistemas informatizados, a maior parte da informação é armazenada de forma digital. De fato, o funcionamento de instituições em todas as áreas sociais depende de sistemas de informação eficazes e eficientes. No entanto, o desenvolvimento de sistemas para o tratamento de informação digital não é uma tarefa trivial. Para problemas de importância, como seleção de documentos acordo com preferências de usuários ou a organização de documentos em categorias temáticas, existem atualmente apenas soluções heurísticas. Estas soluções, no entanto, são normalmente desenvolvidas para uma coleção específica de documentos. A sua aplicação em coleções diferentes requer adaptações mais ou menos complexas, o que implica um esforço adicional de pesquisa e implementação. O uso de algoritmos adaptativos pretende resolver de forma genérica alguns dos problemas encontrados em RI. Algoritmos adaptativos possuem uma capacidade de aprendizagem de parâmetros, o que os torna mais genéricos e, consequentemente, independentes de intervenção humana para que se passam adaptar a diferentes ambientes. Neste projeto, pretendemos estudar, avaliar e implementar diversas soluções para problemas de RI textual usando algoritmos adaptativos. Problemas de classificação, ordenação e recomendação de documentos serão abordados usando diversas soluções adaptativas. Serão testadas soluções baseadas em, entre outros, algoritmos genéticos, algoritmos de clustering e algoritmos de classificação supervisionada. O foco principal das aplicações desenvolvidas será a World Wide Web um repositório de informação de importância mundial, onde, devido à sua estrutura dinâmica e grande variabilidade, são essencias técnicas adaptativas.

    Integrantes(es): Altigran Soares da Silva

    Financiador(es):

  19. 2006 - 2009. SIRIAA - Sistemas de Recuperação de Informação em Ambientes com Adversário. (Participante)

    Descrição: Este projeto visa o estudo de soluções para problemas de recuperação de informação em ambientes com adversários, os quais consideram a existência de pessoas interessadas em burlar o sistema, fazendo uso incorreto dos mesmos e trazendo prejuízos aos demais usuários. O projeto enfoca principalmente quatro aplicações específicas: controle de mensagens indesejadas (spam) em sistemas de correio eletrônico (e-mails), detecção e eliminação de informações falsas em bases de dados de máquinas de busca (ou motores de busca), transposição de barreiras à extração de dados em sites Web e filtragem de conteúdo ofensivo em navegadores utilizados para o acesso a páginas Web. CNPq - Edital CT-AMAZONIA/MCT/CNPq nº 27/2005 R$ 380.121,28

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  20. 2006 - 2009. Extração de dados em textos semi-estruturados. (Coordenador)

    Descrição: Neste projeto propomos uma nova abordagem para extração em textos semi-estruturados baseada em Modelos de Markov Ocultos (Hidden Markov Models - HMM). Ao contrário de outros trabalhos baseados em HMM, nossa abordagem dá ênfase à extração de metadados além dos dados propriamente ditos, levando em consideração que dados e metadados podem estar relacionados para formar um único atributo. Por exemplo, no trecho de um anúncio de classificados de imóveis na Web ?2 qtos.?, os termos ?2? (dado) e ?qtos.?(metadado) quando tomados isoladamente não têm um sentido completo. Porém, quando tomados como formando um par <dado, metadado> temos a ocorrência implícita de um atributo, por exemplo, QUARTOS. A extração de dados implícitos em textos semi-estruturados é um problema de grande relevância, tendo sido abordado por vários pesquisadores na literatura recente. Porém, em nenhum destes trabalhos é considerada a extração dos metadados que complementam o sentido dos dados extraídos. Em nosso trabalho, consideramos que a identificação e extração de metadados em textos semi-estruturados têm grande importância, pois: (1) metadados ajudam a identificar os dados com maior precisão, principalmente para valores numéricos; (2) os metadados no texto não pertencem ao domínio dos atributos, devendo ser extraídos separadamente dos dados; (3) o conjunto de metadados extraído pode ser utilizado em várias aplicações que envolvem busca baseada em palavras-chave. Nossa abordagem baseia-se em uma estrutura aninhada de HMMs, onde um HMM principal identifica os atributos no texto e HMMs internos, um para cada atributo, identificam os dados e metadados. Estas HMMs são construídas automaticamente com base em um conjunto de dados preparados em uma fase de treinamento.

    Integrantes(es): Altigran Soares da Silva

    Financiador(es): Universo Online

  21. 2006 - 2010. SAUIM ? Sistema de Monitoramento e Armazenamento de Dados de FaUna Terrestre e MIcro-clima Gerados por Sensores Móveis e Fixos. (Coordenador)

    Descrição: Este projeto propõe-se a investigar a aplicação de Redes de Sensores sem Fio e de Bancos de Dados de Sensores ao monitoramento e armazenamento de dados de espécimes de fauna terrestre e micro-clima em um ambiente típico da região amazônica. Tal estudo abrange desde a investigação teórica e experimental do problema através de simulação, até a implementação real de uma Rede de Sensores em campo para o monitoramento de populações de espécimes do primata Saguinus Bicolor, popularmente conhecido como sauim-de-coleira, que habitam áreas urbanas nas cercanias de Manaus, notadamente o Campus da UFAM. Edital MCT/CNPq/CT-Amazônia/CT-Energ 2006 Proc. 554087/2006-5 R$ 255,511.78

    Integrantes(es): Altigran Soares da Silva

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  22. 2005 - 2006. Geração Automática de Coletores Especializados para a Hidden Web. (Coordenador)

    Descrição: O presente projeto tem como objetivos o desenvolvimento de métodos e técnicas para geração automática de coletores especializados de páginas semi-estruturadas e ricas em dados existentes em Web sites de conteúdo dinamicamente gerado, ou seja, aqueles que compõem a chamada Web Invisível. Nossa motivação é contribuir com o desenvolvimento de uma nova geração de sistemas de busca que sejam capazes de dar tratamento adequado a páginas deste tipo, o que não é possível com as atuais máquinas de busca. As páginas da Web invisível ocorrem em grande volume e abrigam conteúdo de alta relevância e interesse. Estão presentes em inúmeros sites dos mais variados domínios, incluindo comércio eletrônico, bibliotecas digitais, museus, coleções biológicas, etc. Este vasto e valioso conteúdo é praticamente ignorado pelas máquinas de busca atuais. Algumas propostas para coleta de páginas na Web invisível têm surgido na literatura nos últimos anos. Diferentemente destas abordagens, a nossa prescinde da atuação exaustiva de usuários uma vez que é baseada somente em exemplos. Mas especificamente, nosso método é capaz de gerar automaticamente coletores especializados para recuperar páginas estruturalmente similares às páginas de exemplo indicadas por um usuário. O coletor especializado gerado navegará somente pelo sub-grafo do Web site que leva até estas páginas e, quando necessário, preencherá automaticamente os campos de formulários que geram estas páginas.

    Integrantes(es): Altigran Soares da Silva; Márcio Luiz Vidal

    Financiador(es): Universo Online

  23. 2004 - 2007. Projeto Tamanduá. (Participante)

    Descrição: O Projeto Tamanduá tem por objetivo projetar e implementar uma plataforma escalável e eficiente de serviços de mineração de dados. Essas propriedades são atingidas pela utilização de novos algoritmos paralelos construídos sobre a plataforma Formigueiro (Anthill), onde é possível explorar três dimensões de paralelismo: dados, tarefas e assincronia. A plataforma resultante do Projeto Tamanduá vem sendo utilizada por diversos órgãos de governo para atividades como caracterização de perfil de compras governamentais e detecção de fraudes. .

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; Wagner Meira Junior; João Marcos Bastos Cavalcanti; Renato Antônio Celso Ferreira; Dorgival Olavo Guedes Neto

    Financiador(es): Universidade Federal de Minas Gerais, Financiadora de Estudos e Projetos

  24. 2003 - 2005. SiteFix - Adaptação de Web Sites para Tarefas de Recuperação de Informação. (Coordenador)

    Descrição: Este projeto propõe uma para a geração automática (ou semi-automática) de versões de Web sites (ou de partes de Web sites) que sejam mais adequadas para sistemas de RI e que possam até mesmo cooperar com tais sistemas. Esta abordagem é baseada na idéia de se poder, de forma (semi) automática, (1) coletar informação semanticamente enriquecidas de Web sites, incluindo seu conteúdo e estrutura, para produzir uma representação lógica intermediária destes sites; (2) analisar esta representação lógica para verificar propriedades que reflitam requisitos de adequação a tarefas de RI; (3) sintetizar, com base nesta análise, versões (possivelmente várias) que tenham conteúdo equivalente ao do sítio Web original, mas que possuam a características de serem mais adequadas para o processamento automático por sistemas de RI do que o sítio original. O objetivo final é fazer com que as páginas dos Web sites possam ser encontradas com maior facilidade por usuários de sistemas RI na Web tais como máquinas de busca, robôs de coleta de páginas e sistemas de filtragem de informação.

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico

  25. 2003 - 2007. GERINDO - Gerência e Recuperação de Informação em Documentos. (Participante)

    Descrição: A demanda por sistemas para gerência e recuperação de informação contida em documentos tem crescido significativamente nos útimos anos com a popularização da Web e a proliferação das redes de computadores. Esta demanda traz consigo novos desafios tecnológicos relacionados à necessidade de se projetar sistemas mais eficientes e/ou mais eficazes para o tratamento da informação contida em documentos. Os objetivos deste projeto são: a realização de pesquisa básica nas áreas de gerência e recuperação de informação, a criação de uma biblioteca de software para o desenvolvimento de aplicações na área do projeto e um sistema para coleta e recuperação de informação sobre a Web brasileira. A biblioteca de software a ser criada será disponibilizada para outros grupos de pesquisa e para empresas brasileiras com o objetivo de alavancar o desenvolvimento de software de gerência e recuperação de informação no Brasil. A coleta de dados sobre a Web brasileira permitirá que se façam diversos estudos sobre o comportamento da comunidade virtual brasileira, tais como estudos sobre a qualidade das páginas publicadas, o tipo de informaçãoo que é disponibilizada e assim por diante.

    Integrantes(es): Altigran Soares da Silva; Berthier Ribeiro Neto; Alberto Henrique Frade Laender; Edleno Silva de Moura; Nívio Ziviani; Wagner Meira Junior; João Marcos Bastos Cavalcanti; Carlos Alberto Heuser; Mara Abel; Renato Antônio Celso Ferreira

    Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico, Universidade Federal do Rio Grande do Sul, Universidade Federal do Amazonas

  26. 2002 - 2003. Sistema de Recomendação para TV Digital Móvel. (Participante)

    Descrição: Este projeto em parceria com o Instituto Nokia de Tecnlogia - INdT - tem como objetivo geral o desenvolvimento de um Sistema de Recomendação para o ambiente de TV Digital Móvel, com aprendizado automático das preferências do usuário. Para isso, as seguintes tarefas devem ser realizadas: - Estudo de técnicas do estado-da-arte na área de Recuperação de Informação para a aplicação no problema de recomendação em TV Digital Móvel; - Definição da arquitetura de recomendação para o problema em questão; - Aplicar conceitos de aprendizagem de máquina para inferir as preferências dos usuários com o mínimo de interação deste com o sistema; - Experimentação prática para validação do modelo. Com esse trabalho, esperamos contribuir diretamente em pelo menos dois aspectos específicos. Primeiro, adequar as técnicas de recomendação para o ambiente de TV Digital móvel. Em segundo lugar, tornar o processo de detecção das preferências dos usuários o mais automatizado possível..

    Integrantes(es): Altigran Soares da Silva; João Marcos Bastos Cavalcanti

    Financiador(es): Instituto Nokia de Tecnologia

  27. 2002 - 2003. Extração de Informação em Fontes Textuais. (Coordenador)

    Descrição: Este projeto tem com objetivos: Proposta e desenvolvimento de nova abordagem para extração de dados e metadados de documentos contendo textos semi-estruturados e que são ricos em dados, por exemplo: Artigos Científicos, Anúncios de Classificados, Currículos, etc.; Desenvolvimento de uma Nova técnica que combina elementos estatísticos de abordagens como HMM (Hidden Markov Models) , CRF (Conditional Random Fields) com técnica não supervisionada, denominada FLU-CiM., motivada pelo alto grau de esforço humano necessário e alto custo computacional requerido por técnicas que existem atualmente na literatura. Permitir a realização de operações complexas de consulta, busca e mineração sobre dados implícitos que ocorrem em textos semi-estruturados; Estudo e desenvolvimento de técnica para Verificação Automática da qualidade dos dados extraídos pela nova abordagem.

    Integrantes(es): Altigran Soares da Silva

    Financiador(es): Universo Online

  28. 2002 - 2004. I3DL - Inferece, Interoperability and Integration in Digital Libraries. (Participante)

    Descrição: Na última década, as bibliotecas digitais emergiram como uma aproximação chave no processamento e busca de informação em coleções distribuídas. No entanto, apesar de alguns desenvolvimentos promissores, existe ainda pouca interoperabilidade entre sistemas de bibliotecas digitais heterogêneos. Para lidar com tais problemas apropriadamente, é necessário uma teoria unificada. São necessários métodos formais para descrever os dados, o esquema organizacional e as operações que estão no cerne dos sistemas de bibliotecas digitais modernos. É também necessário um arcabouço simples que unifique as atividades - algo análogo ao modelo relacional, que emergiu na década de 70 e levou a rápidos avanços no campo de banco de dados. Este projeto é um esforço o conjunto envolvendo pesquisadores do Brasil e dos EUA, e será concentrado em dois aspectos destes problemas: 1) a integração de representações e modelos de inferência para suportar uma variedade maior de serviços de bibliotecas digitais interoperantes, e 2) a geração de bibliotecas digitais customizadas baseada em especificações formais. Esta colaboração terá como resultado a próxima geração de serviços de informação para bibliotecas digitais, tais como: a) interoperação transparente entre diversos repositórios de texto e dados, b) manuseamento consistente e transparente tanto de documentos textuais como de dados formatados, c) fusão de resultados de fontes diferentes com alta precisão e previsibilidade, d) avaliação probabilística que tira proveito de diferentes fontes de evidência para o cálculo de estimativas de relevância e e) novos paradigmas de visualização que podem ser usados para auxiliar o usuário na formação de consultas e interpretação dos resultados.

    Integrantes(es): Altigran Soares da Silva; Berthier Ribeiro Neto; Alberto Henrique Frade Laender; Pável Pereira Calado; Edward A. Fox; Marcos A. Gonçalves

    Financiador(es): National Science Foundation, Virginia Tech, Universidade Federal do Amazonas, Conselho Nacional de Desenvolvimento Científico e Tecnológico

  29. 2001 - 2005. RiBiDi - Recuperación de Información y Bibliotecas Digitales. (Participante)

    Descrição: O projeto promove a coperação Ibero-Americana na pesquisa e desevolvimento de tecnologias para recuperação de informação e bibliotecas digitais. Tem a duração de 3 anos e conta com a paticipação de instituições e pesquisadores da Espanha, Portugal, Chile, Brasil, México, Colombia e Argentina.

    Integrantes(es): Altigran Soares da Silva; Edleno Silva de Moura; João Marcos Bastos Cavalcanti

    Financiador(es): Programa Iberoamericano de Ciencia Y Tecnología Para El Desarrollo, Universidade de Chile, Universidade Federal de Minas Gerais, Universidade Federal do Rio Grande do Sul

  30. 1998 - 2002. SIAM - Sistemas de Informação em Ambientes Móveis. (Participante)

    Descrição: O projeto SIAM (Sistemas de Informação em Ambientes de Computação Móvel) é resultado da integração de dois componentes centrais a saber: sistemas avançados de informação e um ambiente integrado para computação móvel. O primeiro visa propiciar ao usuário acesso rápido e preciso à informação desejada mesmo na presença de centenas de milhares de documentos e/ou objetos de interesse. O segundo visa assegurar acesso contínuo ao sistema de informação mesmo quando o usuário se encontra longe de seu ambiente de trabalho. A integração destes dois componentes, embora pouco explorada, apresenta-se como abordagem de grande promessa tecnológica e comercial e constitue-se no objetivo central do projeto SIAM.

    Integrantes(es): Altigran Soares da Silva; Bethier Ribeiro Neto; Alberto Henrique Frade Laender; Edleno Silva de Moura; Nívio Ziviani; Wagner Meira Junior; Pável Pereira Calado

    Financiador(es):