Mejorando las técnicas de verificación de wrappers web mediante técnicas bioinspiradas y de clasificación

dc.contributor.advisorAbad Herrera, Pedro José
dc.contributor.advisorÁlvarez Macías, José Luis
dc.contributor.advisorArjona Fernández, José Luis
dc.contributor.authorFernández de Viana González, Iñaki Josep
dc.contributor.otherUniversidad de Huelva. Departamento de Tecnologías de la Informaciónen_US
dc.date.accessioned2016-06-02T09:09:55Z
dc.date.available2016-06-02T09:09:55Z
dc.date.created2016-01-22
dc.date.issued2016
dc.description.abstractMuchas Aplicaciones Empresariales necesitan de los wrappers para poder tratar con información proveniente de la web profunda. Los wrappers son sistemas automáticos que permiten navegar, extraer, estructurar y verificar información relevante proveniente de la web. Uno de sus elementos, el extractor de información, está formado por una serie de reglas de extracción que suelen estar basadas en etiquetas HTML. Por tanto, si las fuentes cambian, el wrapper, en algunos casos, puede devolver información no deseada por la empresa y provocar, en el mejor de los casos, retrasos en sus tomas de decisión. Diversos sistemas de verificación de wrappers se han desarrollado con el objetivo de detectar automáticamente cuándo un wrapper está extrayendo datos incorrectos. Estos sistemas presentan una serie de carencias cuyo origen radica en asumir que los datos a verificar siguen una serie de características estadísticas preestablecidas. En esta disertación se analizan estos sistemas, se diseña un marco de trabajo para desarrollar verificadores y se aborda el problema de la verificación desde dos puntos de vista distintos. Inicialmente lo ubicaremos dentro de la rama de la optimización computacional y lo resolveremos aplicando metaheúristicas bioinspiradas como es la basada en colonias en hormigas, en concreto aplicaremos el algoritmo BWAS; con posterioridad, lo formularemos y resolveremos como si de un problema de clasificación no supervisada se tratara. Fruto de este segundo enfoque surge MAVE, un verificador multinivel cuya base principal son los clasificadores de una única clase.en_US
dc.description.abstractMany Enterprise Applications require wrappers to deal with information from the deep web. Wrappers are automated systems that allow you to navigate, extract, reveal structures and verify information from the web. One of its elements, the information extractor, is formed by extraction rules series that are usually based on HTML tags. Therefore, if you change sources, the wrapper, in some cases, may return unwanted information by the company and cause, at the best, delays in their decision-making process. Some wrappers verification systems have been developed to automatically detect when a wrapper is taking out incorrect data. These systems have a number of shortcomings whose origin lies in assuming that the data to verify follow a series of pre statistics. This dissertation analyzes these systems, a framework is designed to develop verifiers and the verification problem is approached from two different points of view. Initially, we place it within the branch of computational optimization and solve it applying bio-inspired metaheuristic as it is found in ant colonies, specifically we will apply the BWAS algorithm. Subsequently we will formulate and solve as if it were a unsupervised classification problem. The result of this second approach is MAVE, a multilevel verifier whose main base are the unique class classifiers.
dc.description.departmentTecnologías de la Información
dc.identifier.urihttp://hdl.handle.net/10272/12227
dc.language.isospaen_US
dc.publisherUniversidad de Huelvaen_US
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 España*
dc.rights.accessRightsopen accessen_US
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.subjectWeb
dc.subjectVerificación asistida por ordenador
dc.subject.otherWrappers
dc.subject.otherVerificación
dc.subject.otherClasificación
dc.subject.otherMetaheuristicas
dc.subject.otherVerification
dc.subject.otherClasifiers
dc.subject.otherMetaheuristics
dc.titleMejorando las técnicas de verificación de wrappers web mediante técnicas bioinspiradas y de clasificaciónen_US
dc.typedoctoral thesisen_US
dspace.entity.typePublication
relation.isAdvisorOfPublication0d0ecab3-4a9b-4983-9a56-8c9431264b6e
relation.isAdvisorOfPublication69b384bb-d700-4375-a4c3-016ca274ed32
relation.isAdvisorOfPublicationef98b1ec-2159-46f3-b4d8-d89aca5d6686
relation.isAdvisorOfPublication.latestForDiscovery0d0ecab3-4a9b-4983-9a56-8c9431264b6e
relation.isAuthorOfPublicationcd4ae936-4616-409c-a931-cd9410d7864a
relation.isAuthorOfPublication.latestForDiscoverycd4ae936-4616-409c-a931-cd9410d7864a

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Mejorando_las_tecnicas_de_verificacion.pdf
Size:
3.75 MB
Format:
Adobe Portable Document Format

Collections