UCL - Service des réseaux d'information

Conversion de documents MS-Word Macintosh en HTML

Sommaire

A qui est destinée cette page ?

Cette page est destinée aux personnes qui pratiquent Microsoft-Word (appelé Word dans la suite) depuis longtemps, qui ont donc accumulé un paquet de textes intéressants qui, malheureusement, ne sont pas dans le bon format pour être présentés sur le WWW. Elle explique comment convertir presque automatiquement ces documents Word en documents HTML. Cette page a évidemment été construite grâce à la méthode décrite.

Cette procédure étant nouvelle, nous invitons toute personne qui la testerait à nous tenir au courant de ses réactions tant positives que négatives.

Comment fonctionne la méthode ?

Elle repose sur l'utilisation des styles de Word en vue de produire un document HTML correct équivalent ou proche de ce qui s'affiche en Word. Elle s'inspire largement d'un document exemple produit par Chris Hector, l'auteur du programme RTFtoHTML.

Le passage de Word vers HTML se fait grâce au programme RTFtoHTML qui se base principalement sur les styles reçus de Word pour générer des bons ferrets (tags) HTML. Il va sans dire que RTFtoHTML traduit immédiatement correctement les expressions mises en gras ou en italique.

L'usage intensif des styles peut se justifier même face à la menace(?) de l'annonce du nouveau Word Mac qui permettrait "automatiquement" la génération de code HTML. En effet, que ce nouveau programme existe ou non, on ne peut produire de bonnes mises en forme HTML que si l'on a une idée de ce que sont les différents types de paragraphes HTML. Si l'on veut produire ces différentes présentations sous Word, il faudra nécessairement marquer les paragraphes Word d'un signe particulier (le style). Et, lors de l'exportation vers HTML, le programme RTFtoHTML fera du paragraphe Word de ce style-ci un paragraphe HTML de ce type-là.

Cette méthode est donc générale que l'on convertisse en HTML par un programme externe (RTFtoHTML) ou par une option interne du futur Word Mac (c'est l'option utilisée par Word pour Windows).

Pour rappel, il existe 2 autres méthodes (tout aussi valables):

  1. écrire soi-même directement les ferrets HTML autour de son texte avec Word ou n'importe quel éditeur de texte;
  2. disposer d'un programme qui génère automatiquement les ferrets HTML sans jamais les montrer (PageMill d'Adobe et ClarisWorks v4, sur le Mac le permettent déjà).
Pour éviter d'avoir à retenir les noms des styles Word d'une part et, d'autres part, les noms des types de présentation HTML , ainsi que l'équivalence entre les uns et les autres, on a donné aux styles Word créés pour la cause le même nom que le ferret HTML correspondant. Ainsi le nom du style Word pour générer un titre de section HTML de niveau 1, "h1", est le même que celui des ferrets générés <h1></h1>

Vu que MS-Word Mac permet facilement d'enregistrer un texte en format RTF, on a imaginé de construire un document Word modèle (prototype) qui contienne

Les outils originaux nécessaires:

La version originale d'RTFtoHTML est disponible aux Etats-Unis, tôt le matin, mais est également présente sur plusieurs serveurs proches. A ce jour la dernière version Macintosh semble être la 2.7.5

Avec le module RTFtoHTML proprement dit sont livrés des tables (des fichiers paramétrables), notamment

Ce que nous fournissons: dossier de ressources

On a préparé un dossier de ressources qui contient 2 fichiers de RTFtoHTML modifiés:
  1. le fichier modifiéhtml-trans : avant de copier ce fichier dans le dossier où se trouve le programme RTFtoHTML, il faudra veiller à renommer le fichier html-trans original.
  2. le fichier modifiéhtml-map : avant de copier... Ce fichier n'appartient pas vraiment au modèle mais il en facilite l'usage. Le fichier html-map modifié maintient les accents Mac lisible dans le texte généré. Il ne faudra dès lors pas oublier de les transformer en code ISO-8859-1 lors du transport de la page sur le serveur WWW.
Nous avons également préparé dans ce dossier un mode d'emploi et un document modèle Word qui contient, en plus du canevas UCL, les styles orientés HTML.

  1. le fichier Page blanche Word UCL : ce fichier est un document Word spécial, appelé "modèle" ou "prototype". Si on clique dessus, il ne s'ouvre pas mais donne naissance à une copie, sans titre, que l'on peut, elle, modifier. C'est dans ce modèle que se trouve définis les styles orientés HTML. C'est la qu'on récupérera les styles pour transformer un document ancien. C'est à partir de ce modèle que l'on partira pour créer des textes HTML nouveaux.
  2. le fichier Mode d'emploi est un document Word qui explique les détails de la méthode.
Note
Pour que le dossier puisse être décompacté, il faut disposer du programme StuffIt Expander.

Application à des documents existants

1. Si ces documents MS-Word sont pourvus de styles

Il faudra rebaptiser le nom des styles utilisés pour retomber dans la nomenclature proposée. On se reportera pour les détails de l'opération au Mode d'emploi officiel de Word. Voici la séquence des opérations à effectuer:
  1. Si ce n'est pas déjà fait, aller chercher le dossier ressources et en copier html-trans ainsi que html-map dans le dossier original de RTFtoHTML (après avoir fait une copie des fichiers originaux). Cette opération ne se fait évidemment qu'une seule fois.
  2. On ouvre le document ancien
  3. En mode définition de styles dans l'ancien document, on ouvre laPage blanche Word UCL pour hériter, dans l'ancien document, des styles définis pour RTFtoHTML.
  4. Ensuite, on sélectionne un à un les anciens styles pour changer leur nom en un nouveau équivalent. Par exemple, l'ancien style "chapitre" deviendra "h1". Word demandera confirmation de la fusion pour chaque style renommé et le tour est joué.
    Je rappelle que ce changement de nom fait une fois pour chaque style ancien a une incidence sur l'entièreté du document, quelle que soit sa longueur.
  5. On veillera aussi à ajouter les lignes typiques du canevas UCL dans l'ancien document, titre de page, mots-clé, signature etc. Des styles ("title", "descripteurs"...) sont prévus à cet effet dans la Page blanche Word UCL et leur usage détaillé est décrit dans le Mode d'emploi:.

    Ces opérations de rebaptême et de normalisation étant faites, on pourra
  6. Enregistrer le document ainsi modifié en format normal (si du moins on en encore l'intention de le retravailler en Word),
  7. Puis en format RTF
  8. Soumettre la version RTF à RTFtoHTML pour la conversion finale. RTFtoHTML fournit une document de même nom que le document RTF mais pourvu du suffixe .html. Il est presque exploitable directement sur le Web.
  9. Procéder aux ajustements (voir plus bas)
  10. Et finalement, procéder au transport du texte HTML généré sur votre serveur WWW en n'oubliant pas de demander la conversion en ISO-8859-1.

2. Si l'on a travaillé sans utiliser la technique des styles

On va le regretter amèrement.

On peut

  1. Injecter les nouveaux styles dans l'ancien document (voir ci-dessus) puis, avec patience appliquer les nouveaux styles, paragraphes par paragraphes ou groupe de paragraphes par groupe de paragraphes, en espérant que le document ancien ne soit pas trop long.
  2. Changer de méthode et utiliser celle de ClarisWorks, basée sur les tailles, qui est décrite dans la page sur les éditeurs.

Ajustements nécessaires

Page : UCL | éditeurs| Pointeurs utiles.


31 janvier 1996.

Responsable : Jean-Pierre Mitsch < mitsch@ipm.ucl.ac.be>