mardi 19 janvier 2016

Collectage en Espagne

Je suis tombé sur ce truc hier ou avant-hier. Ou la veille. Enfin y'a pas longtemps. Par hasard. Enfin, presque, mais c'est une autre histoire... Wikimedia Espagne aidé la Fundación Joaquín Díaz à charger une montagne de fichiers sur Commons, avec le soutien de la Wikimedia Fondation, si j'ai bien tout compris.

Commençons par le commencement, la Fundación Joaquín Díaz, c'est une fondation, j'imagine (à ce stade, je crois qu'il faut un tout petit peu préciser que je ne comprends pas l'espagnol, mais alors pas du tout du tout), qui d'une part a un article un-peu-court-jeune-homme sur Wikipédia en français, et pas tellement plus développé en espagnol, et qui a pour principal intérêt de faire du collectage dans la province de Valladolid (c'est en Espagne, je dis ça, parce qu'il a fallu que je regarde que ça n'était pas la société qui fait de la synthèse vocale au Japon, oui-oui. Mais c'est en Espagne, c'est une certitude), si j'ai bien compris.

Le collectage, en l’occurrence, ça consiste à attraper les vieux qui savent jouer d'un biniou quelconque, qui connaissent des histoires, etc., et de leur coller un magnéto sous le nez jusqu'à tant qu'ils aient essoré leur répertoire. C'est pas une grande innovation, bien sûr, mais c'est un moyen de fixer la tradition orale. Et après, si on veut, on peut théoriser dessus si on est porté sur l'ethnomusicologie, on peut l'exploiter jusqu'à la moelle (tiens, les Danses hongroises de Brahms sont en fait des danses tziganes qui ont été collectées — à l'époque, il n'y avait pas de magnéto, mais l'idée est la même), ou simplement les écouter pour le kif (je vais personnellement m'en tenir à ça).

Et ils ont mis tout ça sur Commons, avec une licence cc-by-sa. C'est cool, on peut l'écouter, on peut s'en servir, on peut le partager, on peut le redistribuer autant qu'on veut tant qu'on cite les auteurs et qu'on le laisse sous sa licence (non, vous ne rêvez pas, sous vos yeux éberlués, je viens de vous re-raconter la licence cc-by-sa, dans toute sa coolitude. Ne me remerciez pas).

Ça fait 926 disques (c'est rangé ici), enregistrés entre les années 1950 et 2010 (voir ), le tout bien rangé, avec des métadonnées lisibles (au moins pour un être humain) dans les pages de description. Et là, on arrive au moment où j'aimerais bien faire comme si d'une part je savais de quoi je parle, et d'autre part faire comme si je comprenais de quoi ça parle. Donc maintenant, l'instant en roue libre, le moment où l'on fait semblant que j'ai trouvé les 3 ou 4 trucs intéressants dans le parmi des 21 371 fichiers dont je ne comprends pas la langue :
Mettons, donc… mes découvertes, en 10 minutes :

une dame de 75 ans, qui visiblement raconte une histoire de fille perdue :

un flamenco par le fils de Teresa López et Juan de la Cruz :

une marche pour une procession (je dois être doué pour les langues, finalement) :

un pasodoble, par Aurelio :

une rumba (qu'est-ce que je peux en dire, à part "Lola, la, la, lo, la" ?) :

Mais très vite, on réalise que Commons est peut-être plus ou moins adapté à héberger les photos de Wikipédia (je sais pas, en fait, c'est peut-être que j'ai l'habitude, après tout…), mais c'est pas du tout adapté à écouter de la musique (ou regarder de la vidéo, d'ailleurs), il n'y a pas de playlist, donc à la fin de chaque fichier, il faut passer au suivant à la main, et là, on a deux choix : ou bien on écoute un autre fichier de la catégorie où l'on est (en supposant qu'on se serve des catégories) mais on n'a pas accès aux métadonnées (il faut se contenter du nom du fichier), ou bien il faut charger la page de description.

J'ai bien essayé de faire une wikiradio (c'est un truc sympa, bien qu'un peu rudimentaire) avec tous les 21 371 fichiers, mais bien sûr, c'est trop pour la machine, qui fait une indigestion, bref, ça marche pas.

Bien sûr, on peut télécharger des chansons à la main, ou bien, puisqu'il y a une catégorie par disque (depuis tout à l'heure, je dis disque, parce que quand j'étais petit, la musique venait sur des disques, et même quand c'était sur des cassettes, c'était des disques, faites pas chier, et maintenant que je vieillis et j'écoute des disques en ogg.), il y a l'indispensable outil de l'excellent Poulpy qui sert (l'outil, pas Poulpy, qui sert…) à télécharger tous les fichiers d'une catégorie : catdownload (et non, c'est pas un truc pour télécharger des chats… quoique…) Donc, tant que Tools Labs fonctionne, on a ça.

J'imagine qu'il doit être possible de bricoler un truc de manière à ce que le schmilblic se goupille correctement sans avoir recours à la papsouille à turole d'admission et sans remplir complètement son disque dur de fichiers qui ont perdu toutes leurs métadonnées dans l'opération (c'est un peu dommage…)
Donc, voici (emplâtre sur jambe de bois ou pétard mouillé ?) une playlist à recopier dans un fichier texte avec une extension m3u, lequel fichier est à donner à manger à votre biniou-à-jouer-ces-fichiers-là (VLC, Winamp ou AmaroK, ou autre, on est en 2016, débrouillez-vous).
Naturellement, le truc est trop gros pour que ça tienne sur une seule page, on dépasse allègrement la limite de la page trop grosse de Commons, donc j'ai coupé en deux par le milieu :

Il me reste juste à vous dire comment j'en suis arrivé là (chut, c'est mon blog, je dis ce que je veux et dans le désordre que je veux) : les anglophones ont fait un truc similaire pour la wikiradio classique (wikiradio, liste des fichiers et playlist à recopier), vu que ma wikiradio ne fonctionne pas, il fallait essayer ça. Mais autant je veux bien récupérer l'url du fichier à la main pour une vingtaine de fichiers, autant pour 21 371, je renonce, il me faut un maître jedi du script. Heureusement, je connais Poulpy, qui est juste ça, et à qui il n'a fallu que 3 jours pour faire le travail (oui, quand même). Ensuite, il a fallu trouver un endroit où mettre tout ça. On a fait planter nos navigateurs à essayer de le mettre sur Commons (même le copier-coller est périlleux, on se croirait 25 ans en arrière, tiens…), qui de toutes façons nous a jetés comme des malpropres :
Erreur : Le texte que vous avez soumis fait 2 681 Kio, ce qui dépasse la limite fixée à 2 048 Kio. Il ne peut pas être sauvegardé. 
 Ouais, comme ça, en rouge cerise.
L'occasion d'essayer le service dégooglisé de framasoft, framadrive ?
Le nombre maximum de comptes disponibles (2600) a été atteint. Les inscriptions sont closes pour le moment
C'est clairement pas la journée…
D'où la solution à la tronçonneuse (10685 lignes de chaque côté, ça devrait me tenir l'hiver).

Donc voila, amusez-vous bien avec ça, et personnellement, si j'ai un truc à demander au père Noël, ça serait un système pratique et qui marche pour qu'on puisse écouter simplement les fichiers audio de Commons, comme si on était en 2016 (et pareil pour les vidéos), sans laisser les métadonnées dans les pages de description (on pourrait peut-être les attacher aux fichiers, je sais pas ?, histoire que j'y aie accès depuis mon VLC, par exemple…).
Ah oui, Noël c'est fini… Bon. 

Edit (29 janvier) : Ça m'avait échappé, mais on m'informe que la wikiradio fonctionne. Donc, pour écouter pendant des mois, sans remettre une thune dans le bastringue, c'est ici.