ENVÍO ARTÍCULOS

Buscador :

REVISTA DYNA MANAGEMENT

Saltar al menú
Saltar al contenido

Volver al Menú

Noticias sobre gestión

17
ene
2014

BIG DATA AL SERVICIO DE LA VIGILANCIA TECNOLÓGICA (CELTIC)

Noticias

Vote:

Resultados:

5 puntos

33 Votos

En este artículo se describe un sistema de vigilancia tecnológica e inteligencia competitiva, cuyo objetivo es poner a disposición del usuario información relevante sobre temas y tendencias que se abordan actualmente en el campo tecnológico y su mercado.

Autor: Juan Ángel Ferreiro-Lage de Indra

El sistema es capaz de captar información de fuentes externas con el fin de convertirla en datos de valor mediante técnicas de Procesado del Lenguaje Natural en combinación con tecnologías de procesado y almacenamiento Big Data. La información utilizada es obtenida de redes sociales, canales RSS, bases de datos de patentes, artículos científicos, etc, donde los usuarios alimentan al sistema de conocimiento, añadiendo de forma continua nuevas fuentes. De esta manera, se crea una base de conocimiento que escala en dimensiones y que proporciona información para poder conocer el mercado y los competidores próximos a nuestro entorno de una forma automatizada.

La utilización de las últimas tecnologías Big Data y Procesado del Lenguaje Natural para la extracción, almacenamiento y procesado de datos permite automatizar la identificación de expertos tecnológicos, nuevas tecnologías, marcas, empresas, tendencias, predicciones y, de esta manera, analizar su comportamiento.

Con estas tecnologías, se pretende cubrir el proceso de Vigilancia Tecnológica e Inteligencia Competitiva (VT/IC) en todas sus fases: agregación de información, análisis de información y extracción del conocimiento necesario, y distribución mediante mecanismos de visualización e interacción avanzados para facilitar la toma de decisiones estratégicas y permitir anticiparse al mercado.

1.- INTRODUCCIÓN

Actualmente vivimos en un entorno acelerado, con cambios tecnológicos constantes que generan la necesidad de un proceso continuo de innovación, en el que las organizaciones deben conocer de primera mano todas las actuaciones del mercado y los competidores próximos a su entorno.

Ante estos entornos tan cambiantes, existe una disciplina denominada Vigilancia Tecnológica e Inteligencia Competitiva. Existe una norma que define formalmente este concepto y viene recogida en el texto UNE 166006:2011 Ex Gestión de la I+D+i (Sistema de Vigilancia Tecnológica)[1]. Según la UNE, la vigilancia tecnológica es un proceso organizado, selectivo y permanente de captar información del exterior y de la propia organización sobre ciencia y tecnología, seleccionarla, analizarla, difundirla y comunicarla, para convertirla en conocimiento, tomar decisiones con menor riesgo y poder anticiparse a los cambios. La Fundación para la Innovación Tecnológica COTEC [2] la define como un sistema organizado de observación y análisis del entorno, seguido de una correcta circulación interna y utilización de la información en la empresa, que impulsa la capacidad de claridad y anticipación; es un estado permanente de atención y toma de decisiones ante oportunidades y amenazas del entorno. Escorsa (2001)[3] explica que la VT/IC mira sobre todo al exterior de la empresa y tiene un carácter anticipante, ya que "pretende captar señales débiles - lo que empieza a pasar, evidentemente, es necesario asimilarlo lo antes posible - y, por lo tanto, busca detectar oportunidades y amenazas".

Internet es el medio donde se agrupa la mayor parte de información disponible y donde se distribuye principalmente todo tipo de información. En los últimos años, el volumen de datos en la red ha crecido exponencialmente y en 2015 se prevé superar la barrera del zettabytes de información.

Se está demostrando que la capacidad de manejo de gran cantidad de información se está convirtiendo en una de las mayores fuentes de ventajas competitivas para las empresas, ya que permite comprender el entorno competitivo que les rodea y entender mejor a los clientes para poder ofrecer nuevos servicios y mejores productos. Empresas como Google, Yahoo! o Facebook han demostrado que se puede crear un modelo de negocio dando significado a gran cantidad de información desestructurada. El crecimiento actual de los datos en internet es del 22% [4] y el crecimiento actual de datos no estructurados es del 72%, por lo que estamos ante una de las grandes tendencias actuales del mercado tecnológico.

Existen diversos conjuntos de herramientas [5] para poder realizar en distintas etapas un proceso completo de vigilancia. Los problemas que genera utilizar diversas aplicaciones es que, en la mayoría de los casos, se genera información inoperable entre las distintas herramientas y, por otra parte, ante una gran cantidad de fuentes, se puede llegar a producir saturación de información en cortos periodos de tiempo.

En este artículo se presenta una herramienta que sistematiza el proceso de VT/IC generando automáticamente un sistema de inteligencia empresarial adaptado al mercado tecnológico. Se utiliza el Procesado del Lenguaje Natural (PLN) para proporcionar valor a los contenidos capturados por el sistema, como pueden ser: identificar el idioma, detectar entidades (empresas, personas, cosas), obtener información de las entidades, detección automática de palabras clave, clasificación, clusterización...

La herramienta sintetiza de forma visual datos de aquellas tecnologías o subtecnologías (áreas de vigilancia tecnológica) sobre las que actualmente se investiga. Dichos datos son generados mediante el análisis de grandes cantidades de información y el uso de tecnologías Big Data sobre una plataforma de Cloud Computing, lo que proporciona un escalado horizontal (a nivel de hardware y a nivel de software) y un rendimiento de generación de contenidos óptimo.

La información utilizada es tanto información corporativa como información obtenida de redes sociales, canales RSS, bases de datos de patentes, Wikipedia, etc., donde los actores son los vigilantes tecnológicos que alimentan al sistema agregando fuentes de información de interés de los diversos recursos disponibles.

2.- DESCRIPCIÓN DEL SISTEMA

La descripción del sistema se ha dividido en cuatro apartados: en el primero, se define una arquitectura multicomponente basada en Cloud que da soporte a un clúster Big Data. En el segundo apartado, se establece el glosario de términos empleado en la herramienta que es comúnmente utilizado en este contexto, pero de difícil interpretación. En tercer lugar, se hace referencia al plan de vigilancia y los factores críticos empleados; y en el cuarto apartado se describen las principales funcionalidades de la aplicación.

2.1.- DESCRIPCIÓN DE LA ARQUITECTURA

La arquitectura está formada por un sistema Cloud Computing [6] compuesto por tres capas: infraestructura como servicio (IaaS), plataforma como servicio (PaaS) y software como servicio (SaaS)(Fig.1).

La primera capa del modelo cloud, Infraestructura como servicio (IaaS), proporciona una gestión bajo demanda de todos los recursos de hardware disponibles en un clúster, lo que facilita, mediante técnicas de virtualización, una rápida disponibilidad de los recursos necesarios para las tareas de computación. En la capa de Plataforma como Servicio (PaaS) se ofrece un framework de desarrollo formado por un ecosistema Big Data compuesto por diversas herramientas basadas en el paradigma mapreduce [7], que proporcionan la capacidad de procesar grandes cantidades de información en paralelo. La última capa del modelo cloud, Software as a Service (SaaS), proporciona al usuario final una aplicación web donde se ofrece toda la información que ha sido generada por el sistema de forma gráfica y sintetizada. La información también se puede obtener mediante interfaces de ejecución e interfaces de consulta a través de un API REST para poder ofrecer información de valor desde otro tipo de dispositivos o aplicaciones de terceros.

Fig. 1. Arquitectura del ecosistema Big Data en capa PaaS

La adquisición de información se realiza mediante capas modulares de extracción, transformación y carga (ETL), encargadas de capturar información heterogénea de diferentes recursos (redes sociales, páginas web, documentos corporativos, documentos científicos, patentes...). La arquitectura está preparada para la captura de información, tanto estructurada como no estructurada, donde herramientas del ecosistema Hadoop [8] como Apache Pig [9], Apache Hive [10] o Apache Mahout [11], juegan un papel fundamental tanto en fases de análisis y procesamiento del lenguaje natural (PLN) como en fases de predicción, clasificación o clústering o análisis del sentimiento.

Estas herramientas forman la base de procesos de análisis morfosintáctico de lenguas, generación de contenidos procesables e inteligibles, y generación de contenidos con menos ambigüedad en función del lenguaje utilizado.

2.2.- GLOSARIO DE TÉRMINOS PARA LA GESTIÓN DE LA INFORMACIÓN

Se ha definido un glosario de términos para la gestión de la información del sistema (Fig. 2).

Fig. 2. Glosario de términos de gestión de la información del sistema

Se define como recurso el lugar donde las fuentes generan un contenido. Ejemplos de recursos pueden ser Twitter, feeds de RSS, bases de datos de patentes, etc. Las fuentes son los usuarios, los identificadores o los nicks que generan contenido en cada recurso, mientras que el contenido representa la información generada por una fuente (una noticia de RSS, un tweet, una patente...). Las áreas de vigilancia tecnológica son las líneas de investigación establecidas por la organización; el sistema y los usuarios se encargarán de clasificar los contenidos por áreas para adecuar los contenidos a las áreas (clasificados de forma manual por el usuario y de forma automática por el sistema). Una fuente puede pertenecer a varias áreas de vigilancia, ya que los contenidos pueden tratar diversos temas, y los contenidos de una fuente pueden ser clasificados independientemente en diversas áreas de vigilancia.

Una fuente puede ser experta o no en un área de vigilancia, dependiendo de métricas establecidas para cada recurso. Por ejemplo, como podemos ver en la Fig. 2, en el recurso de patentes todas las fuentes son expertas; sin embargo, en el caso de Twitter, para que una fuente sea experta, debe ser detectada como experto por el algoritmo de detección de expertos.

2.3.- PLAN DE VIGILANCIA Y FACTORES CRÍTICOS

Se ha establecido un plan de vigilancia con el fin de definir e identificar las necesidades de información (Fig. 3). Para ello, sabemos que la plataforma de vigilancia gestiona información heterogénea que proviene de diversos recursos. Esta información es tratada, almacenada, procesada y validada por el clúster de computación Big Data, lo que permite realizar procesos de búsqueda y filtrado sobre grandes cantidades de información, entre otras operaciones. El usuario del sistema (vigilante tecnológico), además de alimentar al sistema con nuevas fuentes de diversos recursos, puede validar y valorar los contenidos. Los contenidos que se ofrecen al usuario en un principio ya proporcionan información agregada por el sistema (categorización, polaridad, palabras clave). De esta manera, se realiza un proceso automático de curación de contenidos, en el cual el sistema aprende de la información que el usuario le proporciona. Este aprendizaje es utilizado también en tareas de clasificación automática de contenidos en áreas de vigilancia y en tareas de predicción.

Fig. 3. Plan de vigilancia

Es necesario establecer unos criterios básicos para saber qué se desea obtener en el proceso de vigilancia, para ello, se clasifica el proceso en cuatro ejes de análisis de los factores críticos de la vigilancia (FCV)[12] (Fig. 4): la vigilancia comercial o de mercado, que se centra en identificar los mercados, las empresas y los clientes potenciales; la vigilancia competitiva, que se interesa por averiguar quiénes son los competidores actuales y posibles competidores que pueden surgir; la vigilancia del entorno, donde se tienen en cuenta factores principalmente legislativos (patentes) y, por último, la vigilancia tecnológica, que comprende el seguimiento de las evoluciones tecnológicas que pueden influir en nuestra empresa, alertando de los cambios en el sector. Estos cuatro ejes de la vigilancia han sido definidos por los autores Martinet B. y Ribault J. (1989)[13] en base al estudio de Porter M. E.(Harvard Business School)[14].

Fig. 4. Factores Críticos de Vigilancia (FCV)

2.4.- DESCRIPCIÓN DE LAS FUNCIONALIDADES

Siguiendo los procesos definidos por la norma UNE 166006:2011EX [1], el vigilante, como primer paso, identifica las necesidades de información dentro de un área de vigilancia tecnológica y añade al sistema fuentes de los diversos recursos disponibles. El vigilante obtiene un conjunto inicial de contenidos asociados a su área de conocimiento, sugerencias de otras áreas de conocimiento afines, un conjunto de palabras clave detectadas por el sistema y palabras clave de nueva aparición que pueden servir de apoyo en la detección de nuevos términos tecnológicos o novedades dentro de un área de vigilancia. Además, dentro de cada área de vigilancia, el sistema, por diferentes criterios en función del recurso, identifica fuentes denominadas "experto", entidades (organizaciones, personas, universidades, centros tecnológicos), eventos y otro tipo de fuentes para buscar información (revistas, boletines ...).

En el proceso de búsqueda, tratamiento y validación de la información, los vigilantes valoran y validan los contenidos en términos de pertinencia, fiabilidad, relevancia y calidad. Existen diversos recursos en los que los contenidos son mayoritariamente de opinión, como es el caso de Twitter, ahí, el sistema detecta la polaridad de un contenido indicando si es positivo, negativo o neutro. La valoración y validación tiene un peso importante a la hora de realizar una curación de contenido de forma automática.

A la hora de ofrecer una puesta en valor de la información, se muestran datos de predicción y tendencias de mercado relacionados con cada área de conocimiento, donde se puede observar cómo evolucionan las áreas en función del tiempo teniendo en cuenta métricas del ámbito tecnológico.

Se identifican automáticamente nuevas tecnologías en base a la aparición de nuevos términos dentro de un área de vigilancia, p. ej. uso de técnicas de clústering para la detección de nuevos términos tratados por fuentes expertas. Los avances relacionados con el Named Entity Recognition (NER), basados en información pública como la Wikipedia, permiten identificar empresas-competencia o empresas que pueden formar una alianza estratégica tanto a nivel tecnológico como de mercado. De la misma manera, el sistema nos puede proporcionar términos identificados como oportunidades o riesgos dentro de cada área de conocimiento.

La información proporcionada permite al vigilante tecnológico decidir acciones de anticipación a partir de los datos mostrados. Asimismo, se detectan oportunidades, riesgos, debilidades y se deciden acciones de mejora para superar los desfases y minimizar las debilidades identificadas a partir de la información mostrada.

3.- RESULTADOS

El objetivo de la herramienta es proporcionar información complementaria al vigilante tecnológico para tomar acciones de anticipación en tendencias de mercado, tendencias tecnológicas, predicciones o detección de expertos en diversas áreas tecnológicas. De esta manera, se pretende aportar información de valor para reducir el riesgo en la toma de decisiones tecnológicas y de mercado.

Se crea una base de conocimiento que proporciona información de ayuda para conocer el mercado y los competidores próximos a nuestro entorno de una forma automatizada y reglada.

Comparando el impacto de unas tecnologías frente a otras y su evolución en diversos períodos de tiempo, se ofrece una visión panorámica, cualitativa y cuantitativa del sector tecnológico, partiendo de unos indicadores previamente establecidos. Se generan así informes dinámicos que facilitan la evaluación y comprensión por parte de los usuarios del contexto tecnológico en el que transita la organización.

AGRADECIMIENTOS

Este estudio de investigación ha sido realizado gracias al proyecto de I+D+i CELTIC (IDI-20121345) financiado por el Centro para el Desarrollo Tecnológico Industrial (CDTI) en el programa FEDER-INNTERCONECTA.

BIBLIOGRAFÍA

[1] AENOR (2011). UNE 166006:2011 Gestión de la I+D+i: Sistema de Vigilancia Tecnológica e Inteligencia Competitiva
[2] Vigilancia Tecnológica. Madrid: COTEC, 1999. Consulta 10-09-2013
[3] Escorsa P, Maspons R, et al. "De la Vigilancia Tecnológica a la Inteligencia competitiva". 2001, Pearson Education.
[4] Informe anual de seguridad de Cisco 2013. http://www.cisco.com/web/ES/pdf/Cisco_ASR_2012_v2_020813.pdf. Consulta 15-09-2013
[5] Herramientas Software Para Vigilancia Tecnologica. http://www.slideshare.net/ilakarra/herramientas-software-para-vigilancia-tecnologica. Consulta 18/06/2013
[6] Revista de Cloud Computing. Entendiendo la nube: el significado de SaaS, PaaS y IaaS - http://www.revistacloudcomputing.com/2013/02/entendiendo-la-nube-el-significado-de-saas-paas-y-iaas/ Consulta 12-10-2013
[7] MapReduce. Simplified Data Processing on Large Clusters. http://research.google.com/archive/mapreduce-osdi04.pdf. MapReduce. http://developer.yahoo.com/hadoop/tutorial/module4.html
[8] Introduction to the Hadoop Software Ecosystem - http://www.revelytix.com/?q=content/hadoop-ecosystem. Consulta 16-09-2013
[9] Apache PIG -http://pig.apache.org/
[10] Apache Hive - http://hive.apache.org/
[11] Apache Mahout - http://mahout.apache.org/
[12] Guía 2.0 para la Transferencia de Tecnología y Explotación de Resultados - http://www.eenbasque.net/guia_transferencia_resultados/04_Vigilancia_Tecnologica.html. Consulta 16-09-2013
[13] Martinet y Ribault, B. y J. M. 1989; "La Veille Technologique, Concurrentielle et Commerciale: Sources, Methodologie, Organisation". Les Editions d'Organisation; 300pp., Paris. [14]Porter, M. E. 1980; "Estrategia competitiva. Técnicas para el análisis de los sectores industriales y de la competencia". CECSA, 406pp. Mejico.