IX. MPEG-7

Introduction

De plus en plus d'informations audiovisuelle sont accessibles sous forme numérique, en tout endroit de part le monde. En marge de cela, des gens souhaitent les exploiter. Mais avant que quiconque ne puisse utiliser de telle information, il lui est nécessaire de commencer par les localiser. Au même moment, l'augmentation du nombre d'informations potentiellement intéressantes rend la recherche de plus en plus difficile. Des solutions sont dors et déjà proposées pour faciliter la recherche d'information de type texte. En effet, de nombreux moteur de recherche sont accessibles sur le Web et font même partie des sites les plus visités, ce qui montre une réelle demande pour ce type de produit. Il n'est pour autant pas possible de chercher des informations sur un contenu audiovisuel, puisqu'il n'existe en général pas de descriptions reconnaissable de ce type d'information. En général, il n'est pas possible de trouver de façon efficace une image de "la moto de Terminator II" sur le Web, pour prendre un exemple. Dans certain cas particuliers, des solutions existent cependant. Des bases de donnée multimédias permettent aujourd'hui de chercher sur le marché des images à partir de certaines caractéristiques comme la couleur, la texture ou la forme d'objet dans l'image.

Objectif de MPEG-7

MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au problème décrit précédemment. Ce nouveau membre de la famille MPEG, appelé "Multimedia Content Description Interface" (MPEG-7) étendra les capacités de recherche limitées d'aujourd'hui pour inclure d'autres types d'information. En d'autres termes, MPEG-7 va spécifier une description standard de différents types d'informations multimédia. Cette description devra être associée au contenu lui même pour permettre la recherche rapide et efficace des informations qui intéressent l'utilisateur.

Ces "matériaux" incluent : images, graphiques, audios, vidéos et de l'information sur comment ces éléments sont combinés dans une présentation multimédia (scénario). La description peut être attachée à n'importe quel matériau multimédia, quel que soit le format de la représentation. Même si la description de MPEG-7 ne dépend pas de la représentation du matériau, le standard s'appuie en un certain sens sur le standard MPEG-4 qui fourni quand à lui les moyens de coder des matériaux audiovisuel.

La description standardisée des différents types d'information peut résider en un certain nombre de niveaux sémantiques. Pour prendre l'exemple d'un matériau visuel :

	un niveau d'abstraction bas pourrait être la description de la forme, taille, texture, couleur et composition
	les plus hauts niveaux donneraient des informations sémantiques comme "il s'agit d'une scène avec une voiture rouge à gauche et un oiseau qui vole (dans le ciel)" codées sous une forme efficace
	des niveaux intermédiaires pourraient aussi exister.

En plus de la description du contenu, il peut être également nécessaire d'inclure d'autres informations comme :

	Le format : par exemple le type de compression utilisée (JPEG), ou la taille. Cette information aide à déterminer si le matériau peut être lu par l'utilisateur.
	Conditions d'accès aux matériaux. Cela pourrait inclure des informations concernant le copyright et le prix.
	Liens vers d'autres matériaux intéressant.

Tandis que MPEG-3 n'en finit pas de faire couler l'encre, et que MPEG-4 vient d'apparaître, les artisans des standards de compression planchent déjà sur le successeur - tout du moins théorique - des formats existants, le MPEG-7. Contrairement aux précédentes moutures, MPEG-7 n'est pas un format de compression. Ou en tout cas, pas seulement. Destiné au multimédia au sens large du terme, il vise à encoder toute forme de données audiovisuelles, du texte à la vidéo, du modèle 3D aux présentations interactives. Mais surtout, le standard propose de compléter les données par leur description. MPEG-7 c'est, en résumé, « des bits à propos des bits ». Autrement dit, un ensemble de données supplémentaires décrivant le contenu, son auteur, sa structure, ou même les éléments sémantiques qu'il représente. Le principe est à la fois ambitieux et novateur et on imagine bien la puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est d'ailleurs ce qui semble motiver ses concepteurs : « La principale ambition de MPEG-7 est de rendre les informations multimédias aussi faciles à trouver sur le Web que le texte l'est aujourd'hui. » Par exemple, on pourrait imaginer un moteur qui parcourt le Web à la recherche d'une phrase musicale précise : tapez quelques notes de musique au clavier, et vous obtiendrez tous les morceaux comportant les mêmes notes. Idem avec les images : il sera possible d'identifier les fichiers comprenant un objet d'une couleur donnée, même s'il ne s'agit que d'une partie de l'image. Du reste, l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de respect des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève quelques interrogations. D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer qu'il sera, par essence, plus important que celui de la description des données en elle-même. Ensuite, la base existante. Si l'on considère les milliards d'informations numériques (fichiers image, audio et vidéo) déjà encodées à d'autres formats, on peut s'inquiéter de la vitesse à laquelle se répandrait un nouveau standard, encore en cours de conception aujourd'hui. Enfin, et surtout, on peut se poser la question de l'utilité réelle d'une telle solution. La recherche d'une succession de notes dans l'océan de la musique mondiale peut s'avérer intéressant. Mais sûrement pas pour le commun des mortels, qui se satisfait très bien d'une recherche plus classique par auteur ou par titre. Du reste, il existe d'autres solutions pour indexer, au besoin, des données multimédias. Qui ne se souvient pas de l'affaire Clinton/Lewinsky. Peu après l'audition du Président, les enregistrements vidéo des témoignages étaient disponibles sur AltaVista. Tronçonnés en courtes séquences, ils étaient indexés à la fois automatiquement (à l'aide d'un outil spécifique) et manuellement. Le résultat était probant : la saisie d'un texte permettait d'identifier rapidement tous les extraits vidéo dans lesquels la phrase correspondante avait été prononcée (souvent, curieusement, le dispositif était utilisé pour trouver le mot « cigare »). Il n'est donc pas certain qu'il soit légitime de chercher à imposer - et généraliser - un standard surpuissant, là où d'autres solutions « sur mesure » peuvent suffire. Décrire les données tout en les compressant est pourtant une tentative logique d'organisation et de structuration du contenu numérique. Mais il est bien dommage que l'on s'en préoccupe si tard. Car finalement, le vrai problème de MPEG-7, c'est sans doute le « 7 ».