Format de données

Un article de Wiki Paris Descartes.

Des clés pour comprendre l'Université numérique
Accès par catégories au glossaire : Accès thématique
HYPERGLOSSAIRE : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z



Format de données

Le format des données est la représentation informatique (sous forme de nombres binaires) des données (texte, image, vidéo, audio, archivage et cryptage, exécutable) en vue de les stocker, de les traiter, de les manipuler. Les données peuvent être ainsi échangées entre divers programmes informatiques ou logiciels (qui les lisent et les interprètent), soit par une connexion directe soit par l'intermédiaire d'un fichier.

Le format de fichier est le type de codage utilisé pour coder les données contenues dans un fichier. Il est identifié par l'extension qui suit le nom du fichier.
Les fichiers d'ordinateurs peuvent être de deux types :

  • Les fichiers ASCII : ils contiennent des caractères qui respectent les codes ASCII. Ils sont donc lisibles (éditables dans n'importe quel éditeur de texte).
  • Les fichiers binaires : ils contiennent des informations codées directement en binaire (des 0 et des 1). Ces fichiers sont illisibles dans un éditeur de texte, mais complètement déchiffrables par la spécification publique fournie par le producteur. Pour afficher ou exécuter un fichier binaire, il faut donc utiliser un logiciel compatible avec le logiciel qui a produit ce fichier.

Sommaire

Format ouvert

Un format ouvert est un format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d'accès ni de mise en œuvre, par opposition à un format fermé (loi française n° 2004-575 du 21 juin 2004).
Le format dit ouvert est indépendant d’un logiciel particulier, d’un système d’exploitation ou d’une société.
Le format ouvert :

  • Garantit l'accessibilité et la pérennité des données : l'auteur a la garantie qu'il sera toujours libre de lire et modifier ses données.
  • Garantit une transparence parfaite au niveau du contenu des données échangées : l'auteur a la garantie de ne pas diffuser des informations confidentielles.
  • Limite la diffusion de virus : expéditeur et destinataire ont la garantie de ne pas se contaminer réciproquement.
  • Garantit que le fichier puisse être lu par n'importe quel logiciel écrit à cet effet et donc rend possible l'échange et l'utilisation du fichier et des données qu'il contient au delà d'un simple usage local.
  • Promeut l'interopérabilité. Les utilisateurs peuvent communiquer sans difficulté avec des logiciels différents capables d'utiliser les mêmes formats. De cette façon, chacun choisira le logiciel le plus adapté à ses besoins en termes de coût, de fonctionnalités, etc.
  • Empêche les monopoles et encourage l'innovation de la part des développeurs en axant la concurrence sur la qualité des programmes eux-mêmes plutôt que sur leur capacité de lire le format de données dominant.

Le format ouvert est un format documenté, librement implémentable.
Le format ouvert et le format libre sont des composants à part entière du mouvement du « libre » (informatique libre).

Format libre

Un format libre est un format ouvert et qui ne doit pas comprendre de restrictions juridiques (à l’exception des licences « open-source ») qui compliquent sa diffusion et son utilisation. Le format n’est pas protégé par un brevet et toute application peut donc l’utiliser sans avoir à payer de droits d’auteur. Toutes les spécifications du format sont disponibles pour toute personne qui le désire. Format documenté, librement utilisable.

Format fermé

Un format fermé est un format dont les spécifications sont tenues secrètes et/ou limitées dans leur utilisation par le cadre légal afin que ce format ne puisse être traité que par certaines applications. Un format fermé ne peut généralement être utilisé (lu correctement et complètement) que par un seul logiciel.

Format propriétaire

Un format propriétaire est un format qui a été élaboré par une entreprise, dans un but essentiellement commercial : il encode les données de telle manière que le fichier résultant n'est lisible qu'avec le logiciel créé pour les décoder. Ce qui augmente d'autant, pour le consommateur, le coût de transition vers un logiciel concurrent.
Les formats propriétaires peuvent être légalement protégés par des brevets et imposer le versement de royalties à tous ceux qui les utilisent. Le propriétaire décide de l'évolution des spécifications et de l'avenir du format.
Un format propriétaire peut être ouvert (le format PDF d'Adobe par exemple) s'il est publié, ou fermé (le format DOC de Microsoft par exemple). Dans le cas d'un format propriétaire et ouvert, le propriétaire peut mettre des conditions ou modifier le format sans communiquer les nouvelles spécifications à ceux qui l'utilisent dans leur logiciel. Un format propriétaire ouvert n'est jamais aussi ouvert qu'un format libre.

Format normalisé

Format ayant fait l'objet d'une normalisation par une institution publique ou internationale (ISO, W3C).

Format conteneur

Le conteneur est un fichier "valise". Un format conteneur est un format transparent et flexible destiné à contenir des données archivées et des informations relatives à celles-ci (permettant de les interpréter, de les décoder).
Les formats conteneurs sont flexibles et évolutifs car on peut y stocker des données de n'importe quel format, même des formats inexistants lors de l'invention du format conteneur.

Ainsi, le conteneur video est un fichier permettant l'archivage de données numériques multimédia (flux vidéo et audio, sous-titres, chapitrages ...) ainsi que les informations nécessaires à leur interprétation et les informations permettant de les synchroniser au moment de la restitution. Cela permet de mettre un film complet dans un seul fichier.
Le conteneur vidéo contient un ou plusieurs flux (audio ou/et vidéo) déjà encodés à l'aide de codecs. Il y a, en général, un flux vidéo et un flux audio. Les flux contenus peuvent être encodés à l'aide de codecs différents.
Les informations fournies en entête de fichier spécifient comment interpréter les flux de données encodés, en indiquant le nom des codecs utilisés pour leur compression et capables de les décompresser et donc de les traduire en séquence audio/vidéo lisible. On y trouve d'autres informations comme la résolution, la fréquence de défilement des images, les copyrights, des métadonnées (auteur, date, etc.).
Les formats conteneurs sont également utilisés pour le streaming.

Les formats texte

Le codage concerne d’une part les caractères (une table de codage, telle que ASCII ou Unicode, convertit chaque caractère en nombre) et éventuellement la mise en page.
La mise en page peut–être inexistante (texte brut), représentée par des balises (ex : HTML), introduite par le caractère « \ » (ex : Latex), stockée dans une partie invisible du fichier (ex : doc de word), etc.

Bureautique

Format
(Extension)
Fonctionnalité/Usage Application pour lire le fichier Application pour créer le fichier Liens
TXT Texte ASCII simple, sans mise en forme. Format ouvert et libre. Son intérêt est de pouvoir être lu sur toutes les plates-formes. Tout éditeur de texte ou traitement de texte.
RTF (Rich Text Format). Texte ASCII normalisé avec mise en forme. Syntaxe similaire à celle de TeX. Format pivot (d'échange) entre logiciels et plates-formes hétérogènes.
Toutefois, mise en page et tableaux peuvent ne pas être transcrits fidèlement. A réserver donc aux documents simples, sinon utiliser les formats ODF ou PDF.
Les traitements de texte en général. * RTF (Wikipédia)
DOC Format texte propriétaire et fermé (binaire ou ASCII) très répandu sous Windows ou MacOS. Mais problèmes de compatibilité et d'interopérabilité.
Alternatives à ce format : ODT, RTF, PDF.
Microsoft Word ou tout autre traitement de texte avec filtre d’importation compatible avec Word. Microsoft Word - Lotus Ami Pro - Wordperfect * Doc (Wikipédia)
ODF (Open Document Format). Formats ouverts et libres pour la bureautique, s'appuyant sur plusieurs autres normes telles que XML, SVG, MathML, etc. Opendocument a été adopté par l'ISO en 2006 comme une norme internationale. Openoffice.org (v 2.0), Google Docs, Kword, KOffice, Neo Office, Abiword et Sun StarOffice, Gnumeric,

ajaxWrite, Ichitaro, TextEdit, Zoho Writer, etc.

* Les avantages du format ODF (OASIS)
* OpenDocument (Wikipédia)
* Connaissez-vous OOo ? (Framasoft)
ODT : Texte formaté
Alternative au format propriétaire microsoft .DOC
OpenOffice Writer
ODS : Tableur
Alternative au format XLS
OpenOffice Calc
ODP : Présentation (diaporama)
Alternative au format PPT
OpenOffice Impress
ODG : Dessin
Alternative au format ACC
OpenOffice Draw
ODB : Base de données OpenOffice Base
ODC : Diagramme
ODF : Formule
ODI : Image
ODM : Document principal
HTML
HTM
(Hyper Text Markup Language). Formats ouverts et libres. Fichier ASCII. Langage informatique de balisage conçu pour écrire les pages web avec des liens hypertextes et les mettre en forme.

HTML : page issue d'un site hébergé sur un serveur Unix.
HTM : page issue d'un site hébergé sur un serveur PC sous Windows.

SHTM et SHTML : la page est sécurisée ("Secured" en anglais) par un système de cryptage pour la confidentialité des informations échangés avec le site.
Tout navigateur web. Editeur de texte ou éditeur HTML. * HTML (Wikipédia)
* HTML (commentcamarche.net)
* HTML 4.01 (W3C)
TEX
DVI
Formats ouverts et libres. Fichiers ASCII.
TeX est un langage de programmation compilé utilisé pour mettre en forme un texte (typographie e) afin de créer des documents écrits de grande qualité : livres, thèses, documents techniques et scientifiques, formules mathématiques, articles, lettres, présentations projetées, etc. Alternative au traitement de texte.

LaTeX est une bibliothèque de macro-commandes TeX (collection d'instructions de haut niveau) permettant un usage simplifié de TeX.

Les commandes dvips et dvipdf (ou dvipdfm) convertissent respectivement le fichier DVI en format PostScript (PS) et format PDF. Créer un fichier ".tex" (texte enrichi des commandes teX) avec un éditeur de texte puis le compiler avec un compilateur TeX (linux : "LateX" - windows : "MikTeX") qui génère un fichier ".dvi".
* TeX et LaTeX (Wikipédia)
* LaTeX (CommenCaMarche.net)
* Programmation LaTeX (Wikibooks)
* LateX (Framasoft)
PPT
PPS
Formats propriétaires et fermés pour présentation (diaporama). Mais problèmes de compatibilité et d'interopérabilité.
Alternatives à ce format : ODP
Microsoft Powerpoint - Keynote d'Apple - Impress de OpenOffice.org. Microsoft Powerpoint * Powerpoint (Wikipédia)
XLS Format tableur propriétaire et fermé. Mais problèmes de compatibilité et d'interopérabilité.
Alternatives à ce format : Open Document (ODS), PDF
Tableur Excel de Microsoft - Lotus 123 (dernières versions) - les visionneuses gratuites de Microsoft OpenOffice.org calc. Tableur Excel de Microsoft * Excel (Wikipédia)
PS (PostScript). Format propriétaire et ouvert créé par la société Adobe. Format d'impression. Langage informatique interprété, inter-plateformes, spécialisé dans la description de page (textes, images, polices, couleurs, etc). Le fichier PS peut être visualisé ou imprimé mais ne peut être édité. Linux : gv, ghostview, GSview - Windows : Ghostscript Viewer PDFCreator (convertit un PDF en PS).
La plupart des imprimantes.
* PS (Wikipédia)
PDF (Portable Document Format). Voir : PDF
Format propriétaire et ouvert créé par la société Adobe qui permet la création et la diffusion de documents électroniques de grande qualité. Il a été conçu pour permettre de diffuser des documents électroniques qui puissent être visualisés et imprimés sur n'importe quel type d'ordinateur, indépendamment du système d'exploitation utilisé (Mac OS, Windows, Linux, Unix, etc..), en respectant la mise en page et la typographie originale. Le fichier PDF peut être visualisé ou imprimé mais ne peut être édité.
Linux : Acrobat Reader, xpdf, gpdf, kpdf, gv - Windows : Acrobat Reader
Toutes les imprimantes.
PDFCreator. * PDF (Wikipédia)


Les formats d'image

Voir : Image numérique et les formats d'image.

Format Extension Image Accès Usage
Propriétaire Ouvert Libre
BMP .bmp bitmap X - - Jusqu'à 32 bits/couleur (soit 1,07 milliards de couleurs). Fichiers lourds, à éviter sur le web.
GIF .gif bitmap X X - Palette de 256 couleurs. Schémas et dessins avec peu de couleurs, images animées, images transparentes, icônes.
JPEG .jpeg, .jpg, .jpe, .jfif, .jfi bitmap X X - Jusqu'à 24 bits/couleur. Photographies et images de grandes tailles.
PNG .png bitmap - X X Jusqu'à 48 bits/couleurs. Graphiques, icônes, photographies.
TIFF .tif, .tiff bitmap X X - Jusqu'à 24 bits/couleurs. Fichier non compressé (lourd). Archivage d'images de qualité
SVG .svg vectorielle - X X Cartes, schémas, graphiques, images synthétiques.
WMF .wmf vectorielle X - - Jusqu'à 24 bits/couleurs. Métaformat qui permet aussi l'inclusion d'images matricielles.
SWF .swf vectorielle X - - Animations Flash. Applications multimédia.


Les formats audio

Le format audio est un format de données utilisé en informatique pour représenter (stocker et transporter) des sons, de la musique ou des voix sous forme numérique.
Voir aussi : Vidéo analogique - Vidéo numérique

Format Extension Type Accès Plateforme Usage
Codec Conteneur Propriétaire Ouvert Libre
PCM .pcm X - Mac
Windows
Linux
Audio non compressé.
WAV .wav - X X X - Windows
Linux
Couramment le plus utilisé pour l'audio non compressé (PCM).
AIFF .aif, .aiff X X X X - Mac
Linux
Audio non compressé (PCM).
RealAudio .ra, .ram X - X - - Mac
Windows
Linux
Streaming
MP3 .mp3 X - X X - Mac
Windows
Linux
Idéal pour la diffusion libre sur internet
WMA .wma X X X - - Windows
Linux
Adapté à la diffusion par internet.
Compression avec ou sans pertes.
AAC .aac, .mp4, .m4a X - X - - Mac
Linux
Un des formats successeurs au MP3.
OGG Vorbis .ogg X - - X X Mac
Windows
Linux
Alternative à MP3, WMA et AAC. Très bonne qualité sonore.
MPC .mpc, .mp+ X - - X X Mac
Windows
Linux
Qualité sonore bien supérieure au Mp3 ou encore à l’Ogg.
FLAC .flac, .fla X. - - X X Mac
Windows
Linux
Compression sans pertes.
Monkey'Audio .ape X. - X - - Mac
Windows
Linux
Compression sans pertes.


Les formats vidéo

Un format vidéo est destiné à stocker et transporter un ou plusieurs flux vidéo éventuellement accompagnés d'un ou plusieurs flux audio.
Voir : Vidéo analogique - Vidéo numérique - Streaming

Format Extension Type Accès Usage
Codec Conteneur Propriétaire Ouvert Libre
MPEG-1 .mpeg, .mpe, .mpg, .mpv, .dat X - X X - Utilisée pour stocker les films sur VCD
MPEG-2 .mpeg, .mpe, .mpg, .mpv, .mp2, .m2p, .vob X - X X - Utilisé par les DVD et les SVCD, le montage numérique, la TNT et la diffusion numérique par satellites et le cable
MPEG-4 .mp4, .mov,.avi, .asf, .wmv X - X X - Pour stocker et diffuser sur le net des éléments tels que de la vidéo, de l'audio, de la 2D ou de la 3D.
DivX .avi X - X - - Vidéos compressées très peu volumineuses.
XviD .avi X - X X - Implémentation OpenSource du codec DivX.
DV .dv, .avi, .mov X Pour enregistrer des vidéos sur des cassettes en numérique avec une faible compression pour chaque image.
h264 .mp4, .avi X - X X - Adapté à une très grande variété de réseaux et de systèmes.
Realvideo .rv, .rmvb, .rf X - X - - Streaming.
Theora X - - X X Un des composants du projet libre OGG.
Format Extension Codec Conteneur Propriétaire Ouvert Libre Usage
WMV .wmv X X X - - Vidéo haute définition sur supports optiques, streaming.
AVI .avi - X X X - Format d'encapsulage le plus populaire.
Quicktime .mov, .qt, .qt, .qtx, .qtr, .qt3 X X X - - Supporte de très nombreux formats audio, image et vidéo. Streaming.
ASF .asf - X X - - AVI amélioré. Très utilisé pour le streaming.
RealMedia .rm, .ram, .rpm - X X - - Streaming.
MP4 .mp4, .mp4a, .mp4v, .m4P - X X X - Conteneur officiel pour la norme MPEG-4.
Flash Video .flv - X X - - Streaming sur Internet. Peut mélanger vidéo et interfaces graphiques interactives.
OGG .ogg, .ogv, .oga - X - X X Conteneur de fichiers audio et son au format de compression libre et de qualité.
OGM .ogm - X - X X Issu d'une modification de Ogg pour autoriser des formats audio et vidéo non libres.
Matroska .mkv, .mka, .mks - X - X X Flexible. Possibilité de sélections fines.


DRM

(Digital Rights Management ou GDN : Gestion des droits numériques)
Système de contrôle des fichiers audio, vidéo mais aussi image ou texte en vue de limiter leur piratage : il permet de limiter ou d'empêcher la copie, l'enregistrement ou même la lecture du fichier. La GDN permet ainsi de protéger la propriété intellectuelle (droits d'auteur) des contenus numériques diffusés sur Internet.
De ce fait, bien sûr, les formats incorporant des DRM ne peuvent en aucun cas être libres et ouverts. Voir : Gestion des droits numériques (Wikipédia)

Liens pour approfondir

Formats ouverts :