Outubro 2013 – Data Ecology

Regras para o desenho de tabelas | Parte 1

31 Outubro 201320 Dezembro, 2018Carlos Pampulim CaldeiraLeave a comment

Para que cada linha de uma tabela tenha utilidade ela tem que ter uma identidade própria, quer dizer, deve ser diferente de todas as outras linhas. A distinção entre as linhas faz-se utilizando o conjunto mínimo de colunas que contenham os valores necessários e suficientes para tornar única cada linha. São os valores contidos nesse conjunto mínimo que distinguem as linhas entre si. No caso da tabela Filme da Figura 1 a coluna Título do Filme não é suficiente para distinguir os filmes entre si pois basta uma análise rápida para se encontrarem películas com a mesma denominação, e.g., “King Kong” aparece duas vezes e, caso fosse essa coluna identificadora então a tabela já teria linhas duplicadas.

Figura 1: Tabela Filme.

Ora a duplicação de linhas é aquilo que nunca se quer numa base de dados relacional. Assim, a coluna Título do Filme não satisfaz a condição do conjunto mínimo, há que que juntar pelo menos mais uma para que se consiga atingir a unicidade das linhas. Isso depende sempre do contexto do processo de negócio que se está a analisar. No caso do esquema Cinema poderia aplicar-se optar-se entre duas colunas:

Realizador;
Ano de Produção.

A opção 1) não é completamente satisfatória pois nada obsta a que um realizador trabalhe em duas películas distintas mas com a mesma denominação ao longo da sua vida. Já a opção 2) parece satisfazer a regra da unicidade pois é quase impossível que sejam produzidos dois filmes no mesmo ano e com o mesmo título. A regra da unicidade que se designa tecnicamente como chave primária (CP) será assegurada neste caso em simultâneo pelas colunas Título do Filme e Ano de Produção (Figura 2).

Figura 2: Tabela Filme com chave primária (CP).

A unicidade é tecnicamente designada como a Integridade da tabela e, implica que em Filme possam existir muitos filmes denominados “King Kong” mas apenas um por cada ano de calendário. São possíveis muitos filmes em cada ano desde que tenham títulos diferentes. Já não é possível registar duas vezes a película “Apocalyse Now” para o ano de “1979”. Dai designar-se esta medida de segurança dos dados como uma Regra de Integridade.

Representação de dados numa base de dados

30 Outubro 201320 Dezembro, 2018Carlos Pampulim CaldeiraLeave a comment

Uma tabela típica num base de dados relacional (BDr) contém dados sobre um único tema, ou objecto-informativo, e tem uma denominação unívoca no esquema em que está incluída. Já um esquema é uma representação de um processo de negócio. Por exemplo, o esquema da Figura 1 denomina-se Cinema e é composto pelas tabelas Filme, Actor e Actores do Filme; neste esquema só pode haver uma tabela Actor.

Figura 1: Esquema Cinema.

Uma tabela tem que ser constituída por pelo menos uma coluna, e uma coluna é um conjunto de valores de um certo tipo de dados: nomes, números de telefone, datas, entre muitas outras possibilidades. Numa tabela não podem coexistir colunas com o mesmo nome. Por outro lado, tanto quanto possível essa denominação deve explicitamente indicar qual o tipo de dados tratados na coluna.

Figura 2: Tabela Filme.

A tabela Filme (Figura 2) tem quatro colunas: uma para o nome do filme (Título do Filme), outra para a duração em minutos (Duração), uma outra para registar o nome do realizador (Realizador) e, finalmente, uma para o ano de produção do filme (Ano de Produção).

Na Figura 2, tabela Filme, o título do filme “Gone with the Wind” é uma peça de informação atómica, ou simplesmente, uma peça de informação. Por sua vez cada linha é um objecto distinto dentro da tabela, ou dito de outro modo, cada linha é irrepetível. Ou seja, a linha da tabela Filme em que o título é “King Kong” e o ano de produção “1933” é um conjunto único de dados.

Regra geral a intercepção de uma coluna com uma linha origina sempre um valor, mas pode acontecer que ele não exista, como no caso da coluna Duração no filme “Apocalypse Now”, e nesse caso a coluna tem o valor de NULL. O valor NULL não é zero, nem um espaço em branco, é pura e simplesmente a ausência de um valor. Numa BDr sempre que não se conhece o valor para uma coluna não se deve usar nenhum dos truques clássicos da informática como, por exemplo, preencher com “-“, ou “_”. É sempre preferível deixar o campo a NULL.

Figura 3: Tabela Filme com valor nulo na coluna Duração.

A organização e gestão dos dados

29 Outubro 201320 Dezembro, 2018Carlos Pampulim CaldeiraLeave a comment

A informação numa base de dados relacional está guardada em tabelas que são constituídas por linhas e colunas. As tabelas organizam-se numa base de dados de acordo com um determinado esquema. Cada tabela é um objecto bem definido, com um propósito concreto, e com uma denominação única no esquema.

Uma tabela é normalmente constituída por muitas colunas e linhas mas há casos particulares em que pode existir apenas uma única coluna; ou o inverso também pode ser verdadeiro: uma tabela com várias colunas mas constituída unicamente por uma linha, a qual por sua vez pode estar vazia ou conter dados.

Os dados nas tabelas estão contidos nas linhas e são as colunas que dão contexto a esses dados. Para um determinado conjunto de colunas os valores (nessas colunas) são únicos em cada uma das linhas. É este facto que permite distinguir as linhas entre si. Esse conjunto identificador denomina-se chave primária (CP). O conjunto identificador pode ser singular ou plural, no primeiro caso é formado por uma só coluna – pelo que se diz chave primária simples – no segundo por múltiplas colunas em simultâneo – e então denomina-se chave primária composta. No entanto, quer seja simples ou composta uma tabela tem sempre e unicamente uma chave primária.

Uma base de dados relacional precisa de uma interface especial com o utilizador. essa interface que possibilita quer a simples interacção com os dados, ou as mais complexas tarefas de gestão da informação e da estrutura da base de dados é o Sistema de Gestão de Base de Dados Relacional (SGBDR). Quando se fala do Oracle, MySQL ou SQL Server, por exemplo, está-se a referir a SGBDRs. Todos os modernos e mais utilizados SGBDRs utilizam o SQL (Structured Query Language) como o “caminho” de acesso à informação.

Componentes de uma base de dados

28 Outubro 201320 Dezembro, 2018Carlos Pampulim CaldeiraLeave a comment

Uma base de dados, no sentido estrito de “qualquer coisa que informa”, e não de um sistema de gestão de base de dados, é composta por tabelas, que por sua vez estão estruturadas em linhas e colunas, e cada linha tem uma identidade própria na tabela.

Cada linha é interceptada por pelo menos uma coluna, e cada um desses pontos de intersecção é uma peça de informação.

Uma base de dados é do tipo relacional quando tem origem no Modelo de Dados Relacional. Ou seja, como um prédio tem plantas e é construído com suporte nesse planeamento, também uma base de dados tem que ser pensada e conceptualizada. E é para isso que servem os modelos de dados: são as plantas das bases de dados. Na prática o qualificativo relacional significa que é possível associar os dados localizados em tabelas distintas através de colunas que lhes sejam comuns.

É esta capacidade de relacionar os dados contidos em tabelas diferentes que é o ponto forte das bases de dados relacionais. Aliás, é essa característica que permite transformar dados (aquilo que está em cada uma das tabelas) em informação. A informação nasce precisamente dessa faculdade de criar informação ao ligar as tabelas entre si.

Como se pode ver na Figura 1 é possível associar os actores que participaram num determinado filme através da tabela Actores do Filme que tem colunas em comum com as tabelas Filme e Actor

Figura 1: Associação entre actores e filmes em que participaram.

Sistema de Gestão de Base de Dados Relacional | SGBDR

28 Outubro 201320 Dezembro, 2018Carlos Pampulim CaldeiraLeave a comment

O MySQL tal como o Oracle ou o SQL Server, é um Sistema de Gestão de Base de Dados Relacional, i.e., aquilo que aparentemente é unicamente uma base de dados é muito mais do que isso.

Um SGBDR além de ser composto por dados (aquilo que é mais evidente para os utilizadores sem conhecimentos técnicos) engloba uma série de componentes que permitem e facilitam a entrada e manipulação dos dados, ou dito de outro modo, um sistema de gestão de base de dados é um conjunto de software que gere e controla o acesso à informação propriamente dita.

MySQL | Algumas características

28 Outubro 201320 Dezembro, 2018Carlos Pampulim CaldeiraLeave a comment

O MySQL é o sistema de gestão de bases de dados open source mais utilizado em todo o mundo. Quando comparado com outros sistemas de uso livre como, por exemplo, o PostgreSQL, o MySQL tem muitas vantagens das quais se referem algumas em seguida:

Apesar de ser um SGBDR (Sistema de Gestão de Base de Dados Relacional) com altos níveis de performance é todavia de fácil utilização, quer nas tarefas de exploração da informação quer em termos de administração da base de dados;
Utiliza a linguagem padrão SQL (Structured Query Language) comum a todos os sistemas comercias mais utilizados: Oracle, SQL Server, DB2;
É um sistema multithreaded (múltiplas tarefas num único processo) pelo que aceita a ligação de múltiplos clientes e, por sua vez, cada cliente pode utilizar várias bases de dados em simultâneo. Um servidor de MySQL pode funcionar em múltiplos sistemas operativos incluindo os mais conhecidos (Windows, Linux, Unix e Mac OS), e aceita ligações de sistemas operativos externos pois suporta os protocolos ODBC, JDBC e .NET. A utilização destes protocolos permite que os mais diversos tipos de clientes tenham acesso às bases de dados em MySQL. Assim, é possível aceder a uma base de dados através de uma folha de cálculo, ou de outro tipo de aplicação, de uma forma transparente para o utilizador;
O MySQL incorpora altos níveis de conectividade podendo ser acedido a partir de qualquer nó da Internet. Por outro lado, este SGBDR possui apertados controlos de acesso à informação: para além das credenciais de acesso associadas a cada utilizador, tem ainda regras de acesso aos dados que possibilitam que, por exemplo, um determinado conjunto de dados possa ser visualizado por dois utilizadores mas que só um deles os possa modificar. Já em termos de segurança da conexão utiliza ligações encriptadas através do protocolo SSL (Secure Sockets Layer);
Este SGBDR é um project Open Source (apesar de ser agora propriedade da Oracle Corporation) que disponibiliza este software em duas vertentes principais: através de uma licença GNU de domínio público, ou por intermédio de licenças comerciais em que as organizações passam a dispor de suporte técnico especializado. A plena disponibilidade das distribuições de uso livre significa que basta ter acesso à Internet para que qualquer interessado as consiga obter.

MySQL | Dicionário de dados

23 Outubro 201323 Outubro, 2013Carlos Pampulim CaldeiraLeave a comment

Uma instalação de MySQL tem por defeito três bases de dados (de sistema): information_schema, mysql e performance_schema. O repositório mysql contém o dicionário de dados do sistema MySQL. Uma cópia, apenas com a função de leitura, é guardada na base de dados information_schema. O dicionário de dados é totalmente constituído por tabelas.

Nunca, em nenhum caso – nem com nenhuma justificação -, se deve alterar directamente as tabelas do dicionário de dados pois isso leva SEMPRE a consequências muito nefastas quer na disponibilidade e/ou quer no mero funcionamento do sistema de base de dados.

MySQL | Utilizador | Login

23 Outubro 201323 Outubro, 2013Carlos Pampulim CaldeiraLeave a comment

A segurança do MySQL avalia os utilizadores consoante as suas coordenadas de origem. A chave de segurança é composta por três parâmetros: nome do utilizador (user name), palavra-chave (password) e computador (host). Na gestão de utilizadores convém ter muita atenção com os valores para host pois frequentemente a entrada de um utilizador é recusada apenas por ter a máquina de origem mal atribuída.

O parâmetro host pode ter três valores:

localhost. O utilizador apenas pode ligar-se a partir da mesma máquina onde funciona o servidor de MySQL.
IP/domínio. A ligação somente será efectuada a partir de um determinado IP ou de um domínio.
%. A ligação pode ser feita a partir de qualquer máquina e/ou domínio. Funciona como um “trunfo”, i.e., representa qualquer computador, quer esteja na rede local ou na Internet.

MySQL | Listener

22 Outubro 201322 Outubro, 2013Carlos Pampulim CaldeiraLeave a comment

O listener (“aquele que ouve”) é um serviço lançado quando o daemon⁽¹⁾ do MySQL é iniciado. O listener é um subprocesso dependente do próprio servidor da base de dados, e corre ma porta que estiver especificada no ficheiro de configuração mysql.ini. Por defeito, quer seja em Windows ou Linux, por exemplo, está assignado à porta 3306.

Num sistema Windows pode verificar-se se o processo está a correr acedendo ao gestor GUI de serviços, ou utilizando a janela de comandos com a seguinte instrução:

netstat -a | findstr /C:LISTENING | findstr /C:3306

¹ Programa de computador que corre em backgound, i.e., sem controlo directo pelo utilizador.

MySQL | Motores de base de dados

22 Outubro 201322 Outubro, 2013Carlos Pampulim CaldeiraLeave a comment

São os motores (engines) de base de dados que orientam os processos que asseguram a integridade dos dados, o modo como a estrutura física dos dados se organiza e, ainda, os mecanismos que asseguram a associação entre as estruturas lógicas e físicas do sistema.

No MySQL 5.6 existem os seguintes tipos principais de motores:

InnoDB. Motor que implementa o mecanismo ACID.
MyISAM. Anteriormente à versão 5.6 era o motor por defeito do MySQL; motor não-transaccional.
Memory. Um motor que funciona unicamente na memória (física ou virtual).
Archive. Destina-se ao arquivamento de dados raramente utilizados.

Para ver todos os motores disponíveis pode digitar-se, numa janela de Command Line do MySQL, a seguinte instrução: “SHOW ENGINES;”.