Cette page est destinée aux personnes qui pratiquent Microsoft-Word (appelé
Word dans la suite) depuis longtemps, qui ont donc accumulé un paquet de textes
intéressants qui, malheureusement, ne sont pas dans le bon format pour être
présentés sur le WWW. Elle explique comment convertir presque automatiquement
ces documents Word en documents HTML. Cette page a évidemment été construite
grâce à la méthode décrite.
Cette procédure étant nouvelle, nous invitons toute personne qui la testerait
à nous tenir au courant de ses réactions tant positives que négatives.
Elle repose sur l'utilisation des styles de Word en vue de produire un document
HTML correct équivalent ou proche de ce qui s'affiche en Word. Elle s'inspire
largement d'un document exemple produit par Chris Hector, l'auteur du programme
RTFtoHTML.
Le passage de Word vers HTML se fait grâce au programme RTFtoHTML qui se base
principalement sur les styles reçus de Word pour générer des bons ferrets
(tags) HTML. Il va sans dire que RTFtoHTML traduit immédiatement correctement
les expressions mises en gras ou en italique.
L'usage intensif des styles peut se justifier même face à la menace(?) de
l'annonce du nouveau Word Mac qui permettrait "automatiquement" la génération
de code HTML. En effet, que ce nouveau programme existe ou non, on ne peut
produire de bonnes mises en forme HTML que si l'on a une idée de ce que sont
les différents types de paragraphes HTML. Si l'on veut produire ces différentes
présentations sous Word, il faudra nécessairement marquer les paragraphes Word
d'un signe particulier (le style). Et, lors de l'exportation vers HTML, le
programme RTFtoHTML fera du paragraphe Word de ce style-ci un paragraphe HTML
de ce type-là.
Cette méthode est donc générale que l'on convertisse en HTML par un programme
externe (RTFtoHTML) ou par une option interne du futur Word Mac (c'est l'option
utilisée par Word pour Windows).
Pour rappel, il existe 2 autres méthodes (tout aussi valables):
- écrire soi-même directement les ferrets HTML autour de son texte avec Word
ou n'importe quel éditeur de texte;
- disposer d'un programme qui génère automatiquement les ferrets HTML sans
jamais les montrer (PageMill d'Adobe et ClarisWorks v4, sur le Mac le
permettent déjà).
Pour éviter d'avoir à retenir les noms des styles Word
d'une part et, d'autres part, les noms des types de présentation HTML , ainsi
que l'équivalence entre les uns et les autres, on a donné aux styles Word créés
pour la cause le même nom que le ferret HTML correspondant. Ainsi le nom du
style Word pour générer un titre de section HTML de niveau 1, "h1", est le même
que celui des ferrets générés <h1></h1>
Vu que MS-Word Mac permet facilement d'enregistrer un texte en format RTF, on
a imaginé de construire un document Word modèle (prototype) qui contienne
- les styles utiles à une conversion simple (génération des ferrets les plus
fréquemment utilisés)
- le canevas de l'UCL.
La
version
originale d'RTFtoHTML est disponible aux Etats-Unis, tôt le matin, mais est
également présente sur plusieurs serveurs proches. A ce jour la dernière
version Macintosh semble être la 2.7.5
Avec le module RTFtoHTML proprement dit sont livrés des tables (des fichiers
paramétrables), notamment
- html-trans (c'est dans ce fichier que ce trouve les tables d'équivalence
entre les styles Word et les ferrets HTML)
- html-map (ce fichier
contient la table de traduction des caractères Macintosh en représentations
mnémoniques. Ainsi le mot "été" devient "été" ce qui peut
rendre la lecture du texte HTML généré difficile mais assurera l'universalité de sa consultation).
On a préparé un
dossier de ressources
qui contient 2 fichiers de RTFtoHTML modifiés:
- le fichier modifiéhtml-trans : avant de copier ce fichier dans le
dossier où se trouve le programme RTFtoHTML, il faudra veiller à renommer le
fichier html-trans original.
- le fichier modifiéhtml-map : avant de copier... Ce fichier
n'appartient pas vraiment au modèle mais il en facilite l'usage. Le fichier
html-map modifié maintient les accents Mac lisible dans le texte généré. Il ne
faudra dès lors pas oublier de les transformer en code ISO-8859-1 lors du
transport de la page sur le serveur WWW.
Nous avons également préparé dans
ce dossier un mode d'emploi et un document modèle Word qui contient, en plus du
canevas UCL, les styles orientés HTML.
- le fichier Page blanche Word UCL : ce fichier est un document Word
spécial, appelé "modèle" ou "prototype". Si on clique dessus, il ne s'ouvre
pas mais donne naissance à une copie, sans titre, que l'on peut, elle,
modifier. C'est dans ce modèle que se trouve définis les styles orientés HTML.
C'est la qu'on récupérera les styles pour transformer un document ancien. C'est
à partir de ce modèle que l'on partira pour créer des textes HTML nouveaux.
- le fichier Mode d'emploi est un document Word qui explique les
détails de la méthode.
- Note
- Pour que le dossier puisse être décompacté, il faut disposer du
programme
StuffIt
Expander.
Il faudra rebaptiser le nom des styles utilisés pour retomber dans la
nomenclature proposée. On se reportera pour les détails de l'opération au Mode
d'emploi officiel de Word. Voici la séquence des opérations à effectuer:
- Si ce n'est pas déjà fait, aller chercher le
dossier
ressources et en copier html-trans ainsi que html-map dans le dossier
original de RTFtoHTML (après avoir fait une copie des fichiers originaux).
Cette opération ne se fait évidemment qu'une seule fois.
- On ouvre le document ancien
- En mode définition de styles dans l'ancien document, on ouvre laPage
blanche Word UCL pour hériter, dans l'ancien document, des styles définis
pour RTFtoHTML.
- Ensuite, on sélectionne un à un les anciens styles pour changer leur nom en
un nouveau équivalent. Par exemple, l'ancien style "chapitre" deviendra "h1".
Word demandera confirmation de la fusion pour chaque style renommé et le tour
est joué.
Je rappelle que ce changement de nom fait une fois pour chaque
style ancien a une incidence sur l'entièreté du document, quelle que soit sa
longueur.
- On veillera aussi à ajouter les lignes typiques du canevas UCL dans
l'ancien document, titre de page, mots-clé, signature etc. Des styles ("title",
"descripteurs"...) sont prévus à cet effet dans la Page blanche Word UCL
et leur usage détaillé est décrit dans le Mode d'emploi:.
Ces
opérations de rebaptême et de normalisation étant faites, on pourra
- Enregistrer le document ainsi modifié en format normal (si du moins on en
encore l'intention de le retravailler en Word),
- Puis en format RTF
- Soumettre la version RTF à RTFtoHTML pour la conversion finale. RTFtoHTML
fournit une document de même nom que le document RTF mais pourvu du suffixe
.html. Il est presque exploitable directement sur le Web.
- Procéder aux ajustements (voir plus bas)
- Et finalement, procéder au transport du texte HTML généré sur votre serveur
WWW en n'oubliant pas de demander la conversion en ISO-8859-1.
On va le regretter amèrement.
On peut
- Injecter les nouveaux styles dans l'ancien document (voir ci-dessus) puis,
avec patience appliquer les nouveaux styles, paragraphes par paragraphes ou
groupe de paragraphes par groupe de paragraphes, en espérant que le document
ancien ne soit pas trop long.
- Changer de méthode et utiliser celle de ClarisWorks, basée sur les tailles,
qui est décrite dans la
page
sur les éditeurs.
- dans le document HTML produit:
- RTFtoHTML génère trop tôt la fin de son entête. Il faudra donc, dans le
document HTML généré, couper l'expression </head><body> et
la coller après la ligne des mots-clé.
- L'image Frutiger du nom de l'unité ou du service qui patronne la page est
extraite du document Word par RTFtoHTML pour former un document à part. Il
faudra probablement ajuster cette référence, surtout si on a déjà converti
plusieurs autres textes.
La première fois, même si le nom de ce document
est suivi du suffixe .GIF, il faut veiller à ce qu'il le soit vraiment,
éventuellement en convertissant cette image grâce à un utilitaire comme
CLIPtoGIF qui forcera le format interne de l'image au format GIF.
- Lors de la conversion, RTFtoHTML a automatiquement constitué un sommaire du
texte en reprenant toutes les lignes de style h1, h2, h3, h4. Ce sommaire est
créé en dehors du texte.html. L'utilisateur s'il choisit d'incorporer ce
sommaire en tête du document de base devra le faire manuellement en ouvrant
nomdutexte_ToC.html.
- dans le modèle:
- On peut personnaliser le modèle reçu, la Page blanche Word UCL, en y
stabilisant certains composants. Par exemple, le nom de l'unité qui est
générique dans le modèle peut être actualisé une fois pour toutes.
- Après actualisation du modèle, il faudra veiller à le réenregistrer
éventuellement sous le même nom, mais toujours en mode "modèle"(voir les options du dialogue pour l'enregistrement).
- dans votre version de Word
- On peut mettre les formats "caché", "double soulignement" et "relief" dans
le menu format pour y accéder plus facilement. Cela fait, lorsqu'on veut
générer un hyperlien, il suffit de
- basculer en double souligné + caché pour donné la référence hypertexte
- basculer en double souligné pour donner la référence
- et de repasser en format standard pour continuer à écrire son
texte.
Page :
UCL
|
éditeurs|
Pointeurs
utiles.
31 janvier 1996.
Responsable :
Jean-Pierre
Mitsch <
mitsch@ipm.ucl.ac.be>