cos'è XML
XML (eXtensible Markup Language) è un
meta-linguaggio, cio� un linguaggio che permette di definire altri linguaggi ovviamente linguaggio di markup.
Non ha quindi tag predefiniti ed è semplicemente
un insieme di regole, definite dal W3C su http://www.w3.org/XML.
Attualmente viene utilizzato per descrivere la struttura di qualunque tipo di documento garantendo la protabilità tra sistemi e anche tra applicazioni diverse.
La definizione dei tipi di dati e la forma, e quindi la rappresentazione, vengono lasciate ad altri linguaggi, a loro volta descritti da XML:
- la grammatica viene definita con DTD o XML Schema
- la presentazione con CSS
- la trasformazione con XLS
Esistono poi tantissime altre tecnologie, per esempio per collegare documenti, per estrarre informazioni, per convertirli in formati già in uso (per esempio .PDF), ecc.
Un documento XML è quindi un file di testo che contiene
elementi organizzati in struttura gerarchica, detta document tree:
c'è quindi un elemento principale, chiamato root element o semplicemente root o radice.
Gli elementi possono contenere altri elementi o testo, in modo nidificato.
Agli elementi possono essere associati
attributi che ne descrivono le proprietà e sono contenuto dentro il tag dopo il nome dell'elemento.
Non c'è null'altro, non ci sono tag predefiniti: l'intelligenza e l'esperienza devono fare tutto.
I documenti XML devo essere ben formati:
- le direttive devono stare prima dell'elemento root
- l'elemento root è unico
- ogni elemento deve avere un tag di chiusura (è ammessa la forma abbreviata)
- i caratteri validi sono primi 128 caratteri della codifica ASCII e sono tutti diversi (case sensitive)
- i valori degli attributi devono essere racchiusi tra apici (singoli o doppi)
- i nomi degli elementi (tag) possono iniziare con un lettera o un underscore (_) e possono contenere lettere, numeri, il punto, l'underscore (_) o il trattino (-).
- i caratteri riservati sono & < > " ' e si rendono con & < > " '
- i commenti possono stare in qualsiasi parte del documento tra <-- e -->:
- se non si conosce la codifica dei dati o si vuole inserire codice XML, occorre usare la sezione <![CDATA[ ... ]]>
Se un documento contiene caratteri non standard è necessario anteporre la direttiva che specifica lo schema di codifica:
Ad esempio, la seguente direttiva di elaborazione: per le lettere italiane (Latin 1) la direttiva è:
<?xml version="1.0" encoding="iso-8859-1"?>