¿Qué es Data Sandbox?

Inicio > Big Data > ¿Qué es Data Sandbox?

¿Qué es Data Sandbox?

7 de noviembre de 2012 Eduarea Deja un comentario Go to comments

Data Sandbox, en el contexto de grandes volúmenes de datos, es una plataforma escalable y de desarrollo utilizada para explorar ricos conjuntos de información de una organización a través de la

A multi-node Hadoop cluster (Foto crédito: Wikipedia)

interacción y la colaboración. Esto permite a una empresa darse cuenta de su valor real de la inversión en grandes volúmenes de datos.

Data Sandbox es principalmente explorada por equipos científicos de datos que se obtienen a partir de plataformas Sandbox independientes, datamarts analíticas o particiones lógicas en los almacenes de datos empresariales. Los datos en las plataformas Sandbox proporcionan la computación necesaria para los científicos para hacer frente a las cargas de trabajo de datos analíticos típicamente complejos.

Data Sandbox incluye grandes unidades centrales de procesamiento en paralelo, memoria de gama alta, el almacenamiento de alta capacidad y la capacidad de E / S y por lo general separa la experimentación de los datos y los entornos de producción de base de datos en almacenes de datos.

IBM Netezza 1000 es un ejemplo de una plataforma de recinto de seguridad de datos que es un mercado analítico de datos independiente. Un ejemplo de una partición lógica en un almacén de datos empresariales, que también sirve como una plataforma de datos Sandbox, es el IBM Smart Analytics System. Un cluster Hadoop como IBM InfoSphere BigInsights Enterprise Edition. se incluye también en esta categoría.

Sandbox Big Data es donde se desarrolla la propiedad intelectual de suma importancia – los modelos analíticos avanzados – que la inteligencia extrae de otra manera incipientes de contenido. La escalabilidad Sandbox es fundamental, pero es una potencia más que sólo prima. También necesita la capacidad de soportar el alcance cada vez mayor de proyectos esenciales que caen bajo el paraguas estratégico de grandes volúmenes de datos. Hoy sus necesidades Sandboxing puede girar en torno a análisis estadísticos tradicionales, minería de datos y modelos de predicción, pero puede estar moviéndose rápidamente en Hadoop / MapReduce, R, geoespacial, la manipulación de la matriz, el procesamiento del lenguaje natural, análisis de los sentimientos, y otros tipos de uso intensivo de recursos de procesamiento de datos grandes.

Para evitar que se ahogue en la vertiginosa variedad de proyectos de datos grandes, el Sandboxing plataforma-como IBM Netezza Analytics—debe incrustar completas librerías extensibles de algoritmos reutilizables y modelos de análisis avanzados. ¿Su plataforma Sandboxing le permite conectar también en sus propias bibliotecas o las de un vendedor analítico preferido? ¿Proporciona un entorno de desarrollo integrado con herramientas de modelado preenvasados, conectores y adaptadores de lenguaje que el equipo puede estandarizar a acelerar sus geográficamente amplios programas de desarrollo de grandes de datos? ¿Viene de un proveedor que ofrece una amplia gama de mejores herramientas, como IBM SPSS Modeler, para satisfacer todas sus necesidades de desarrollo? ¿Y ese vendedor proporciona un mundo-clase de datos de gran capacidad profesional de los servicios, tales como IBM Business Analytic and Optimization, para complementar, ampliar y arrancar su práctica interna de gran desarrollo de los datos?

La elección de Sandbox es tan importante como su compromiso con una plataforma operativa de datos grande. Las personas con talento son su recurso más preciado. Sandbox es donde los desarrolladores de datos más grandes se pasan la mayor parte de sus horas productivas. Si no les proporcionan la escalabilidad que necesitan para manejar un número creciente de puestos de trabajo, estará malgastando su tiempo como los que hacen cola para acceder al procesamiento limitado y recursos de almacenamiento. Del mismo modo, si no tienen acceso a una plataforma común Sandboxing con una rica biblioteca de algoritmos y modelos, va a hacer que sea difícil para ellos poner en común su experiencia en proyectos comunes usando herramientas comunes.

Así que cuando se trata de desarrollo de datos grandes, no se olvide de pensar dentro de Sandbox, y para crecer y profundizar ese recurso compartido como las necesidades de su organización evolucione.

Para más información:

Artículos relacionados:

¿Qué es Big Data?

Gestión de los Registros (Records Management) (I)

Gestión de los Registros (Records Management) (II)

Gestión de los Registros (Records Management) (III)

Gestion de los Registros (Records Management) (IV)