retour

Tutorial pour extraire une image d'un PDF et l'intégrer dans un document Word. 

Préparé par Bernard Polarski , Juin 2013

Cet article s'adresse surtout aux PDF downloadé de Gallica.bnf.fr, mais le traitement fonctionne aussi pour tout fichier image.

Software:

Nous allons utiliser essentiellement 2 freeware :
L'installation de XPDF est décrite dans la première partie de ce tutorial ici.
Gimp se trouve ici :     http://www.gimp.org/downloads/

download gimp

et nécessite une installation plus longue. Mais rien d'insurmontable. Vous trouverez une aide sérieuse pour l'installation de gimp ici:

http://wiki.gimp-attitude.org/Installation

Pour mon install de Gimp, afin de l'avoir en français j'ai dû rajouter la variable d'environnement LANG=FR dans mon profil
et pour bien faire je l'ai mis aussi dans le profil général.


START --> CONTROL PANNEL (panneau de contrôle) --> SYSTEM --> ADVANCED SYSTEM SETTING:

change system setting

Au premier démarrage; si ce n'est toujours pas en Français, vous pouvez allez dans Edit --> preferences--> interface et choisir la langue

set lang

Comme PDF nous prendrons "L'île mystérieuse" de Jules Verne : http://gallica.bnf.fr/ark:/12148/btv1b86002556/f588.image.r=.langEN, un PDF de 48 méga.
Comme je suis fainéant, je n'ai pas mis mon chemin d'accès au directory d'install de XPDF et je suis trop fainéant pour taper tout le chemin d'accès. Aussi je copie
le binaire 'pdftoimages.exe dans mon directory de travail.


directoy de travail

J'ouvre 'une command box' et je me rends sur place.

Voici l'image dans mon PDF que je souhaite extraire :

pdf image page 569

J'ouvre une command box, me rend dans mon directory de travail et tape ceci :

  command box

Ceci a pour effet s'extraire la page 593 du pdf et de le mettre dans un fichier dont le radical du nom commence par 'out'.
Comme je n'ai extrait qu'une seule page  je n'ai en sortie que le seul fichier out-000.jpg, sinon il aurait continué la numérotation : un fichier par page.

Voici mon fichier image, extrait du PDF par 'pdftoimages.exe':

image page 593

La qualité de l'image est directement liée à la qualité de l'image DANS le PDF. Hors, les images de Gallica sont rarement
de bonne qualité dans le PDF qu'il produit alors qu'elles peuvent être de bonne qualité dans la liseuse de Gallica.
Il ne vous reste plus qu'a downloader l'image de la page en JPEG.

Bien, maintenant cette image à un grand défaut : je ne voulais que l'image et il y a toute la page.
Je lance donc Gimp 2 et ouvre le fichier de ma page :


ouverture image

Je choisi out-000.jpg

select ion de l'image

Me voilà dans mon écran principal de Gimp avec mon image :

gimp01

CTRL-<scroll de la souris> me permet d'augmenter ou de diminuer la taille de la vision de l'image.

Si l'image n'est pas droite

On peut redresser facilement un image en appelant la grille (shift-r).
redresser l'image


On voit bien que l'image n'est pas tout à fait droite. Cela va être gênant quand nous allons extraire l'image, car le cadre d'extraction est un rectangle
et on aura d'un côté du blanc et de l'autre on va tailler dans l'image. En utilisant le bord du cadre de rotation que je juxtapose sur le bord de l'image,
je peux vérifier en temps réel ma correction avant de lancer la rotation.

En utilisant le corps même de la boîte de dialogue je visualise avec précision l'angle de redressement, car la boîte est absolument orthogonale.


redressement

On voit bien sur le coin se dessiner la correction à faire.
je fais la correction:


rotation

Ici la rotation semble minime, mais laisser-moi vous montrer ce que fait une distorsion minime
au moment de l'extraction: Le cadre est celui de découpage qui lui est toujours orthogonal:


cadre extraction avec erreur

C'est moche!

Donc vérifiez toujours votre rotation et procédez à la rotation adéquate avant de commencer l'extraction.
De toute façon le cadre d'extraction sera là pour vous montrer l'étendue de la rotation nécessaire.

Un mot sur la transformation par cage

Hélas, certaine image ne sont pas orthogonale. La plupart sont plus large a la base qu'en haut ou bien un peu plus 'serrée' d'un côté.
Seule solution est le redressement par cage.
(Click droit --> outils --> outils de transformation --> transformation par cage).

transformation par cage
Un truc avec la transformation par cage est que si on lance le process tel quel on perd les repères que vous donne la sélection.
Aussi je place la sélection par cadre sur mon image et puis j'appelle la transformation par cage :
 On voit alors la déviation exacte qu'il faut corriger:
transformation par cage avec cadre     
Pour effectuer une transformation, il faut après la pose, prendre l'un des coin et le tirer vers la direction qu'on souhaite corriger.
(ie : extérieur pour étendre )

Je vous promets des douleurs avec cet outils-là. Le truc avec la transformation par cage dans Gimp et qu'une fois qu'on a placé
ses quatre points au quatre coins de l'image telle qu'elle est, qu'on a paâatiemment attendu que Gimp fasse une première passe,
qu'on déplace UN PEU l'un des coins dans le sens du redressement voulu, il ne faut pas oublier d'appuyer sur ENTER pour valider
la transformation. Sinon Gimp revient à l'image d'avant la pose de transformation par cage.
C'est à ce moment précis que vous maudirez les développeurs de Gimp. Je vous promet que cela vous arrivera, du moins au début.

Extraction de l'image

Après rotation, j'appuis sur la touche 'R' pour faire apparaitre l'outil d'extraction rectangulaire.
(depuis le menu c''est : Outils --> outils de selection --> selection rectangulaire, 'R' en racourci)
et je cherche a coller au plus près à la section de l'image que je compte retenir.
Pour bouger l'un des coté du cadre d'extraction, il suffit d'approcher la souris du cadre et une espéce de
rectangle jaune apparait qui vous permet de saisir et bouger la ligne du cadre.
Pas besoin de mettre la souris SUR  la ligne du cadre lui même:
bouger la ligen du cadre

Mon cadre d'extraction colle bien au pourtour de l'image car mon image est bien droite:
Je vais procéder à l'extraction proprement dite:

 click droit  --> fichier --> créer --> depuis le presse papier
extraction rectangulaire

Me voici dans ma nouvelle image réduite à la seule gravure:

la gravure

A partir d'ici  nous pouvons faire un traitement spécifiques aux gravures :
   
  La transparence est utilisée pour les images qui ne sont pas carrée et où le texte vient s'imbriquer. ici et là.
 Word supporte la transparence mais aucun browser ni aucun eReader ne le supportent. C'est en cours de discussion au W3C.

A faire en premier : mettre la gravure en noir et blanc.

Pour mettre en format noir et blanc:

  clic droit --> Image --> Mode --> niveaux de gris

Maintenant nous allons un peu chipoter sur la luminosité.
Il y a plusieurs options avec laquelle je vous recommande de jouer sous :

   click droit --> couleur.

Mon préféré est  click droit --> couleur. --> courbe et je fais généralement un beau S incliné :

couleur par courbes


Voilà après application du 'S' dans courbes de couleurs

courbes de couleur en S

Il n'y a rien d'autre à faire de mieux que de jouer avec pour se faire une idée. Si vous n'avez pas mis
 votre images en noir et blanc, ça vas partir dans tous les sens et ce sera trèspsychédélique.

Quand on joue avec les contrastes, ne pas oublier de prendre une zone noir sur noir et de bien vérifier
constamment que vous ne procédez  pas à la fusion de deux niveaux de noir. La finesse des noirs est ce
qui fait la supériorité des écran plasma et LED face aux LCD.  Généralement  je cherche dans l'image
un coin ou il y a un dégradé et je sais que je fais fausse route quand je perds les détails (fusion des gris).

Taille de l'image

La taille de l'image telle qu'elle doit avoir s'exprime en nombre de pixel.

click droit --> image --> Échelle et taille de l'image

taille

La taille de l'image est fonction du nombre de points. Attention Résolution X et Y donnent le nombre de points par millimiètre carré
une fois que la taille est décidée, la baisser ou l'augmenter ne change pas la taille de l'image mais uniquement sa résolution.
Pour les jpeg n'y touchez pas, on l'utilise surtout pour les PNG pour  diminuer leur taille car les PNG sont très gourmands.
(en échange il permettent la transparence du texte ce que le format jpeg ne permet pas)

Ici l'image est petite mais pour un eReader de nos jour (2013) une résolution de 900x 1000 ne pose pas de soucis.

Note sur le comportement de Calibre : Attention à Calibre lors de la conversion de format X vers ePub,
il réduit les tailles de l'image en fonction du eReader que vous avez ! Pour garder la résolution que vous mettez ici, il faut configurer
comme appareil au moment de la conversion: tablettes générique.
Ainsi je possède un Kobo glow et Calibre réduit les images de 900x1024 qu'il réduit à 572x 600.  J'ai cherché longtemps.....

Sauvegarde de l'image

Dans gimp sauver un image sous un format c'est 'exporter'. Pour sauver notre image donc:

click droit --> fichier --> exporter

exporter

Si il ne vous propose pas le format 'jpg' mais png, remplacez simplement par l'extension jpg. Un menu apparait alors qui vous propose
le taux de compression du jpg. Le bon chiffre c'est 35%.

export jpg compression

Je vous invite à faire une sauvegarde d'une belle image en 100% et 35% ,
ouvrir les 2 et comparer les pertes de qualité en agrandissant au maximum un détail.  La perte est très légère!


B. Polarski Juin 2013