Des interfaces homme-machine aux symbioses homme-machine

Article publié dans Veille Sociovision 14 (Septembre 1994)

Les industriels de la télévision et des télécommunications n’ont nullement épuisé leur capacité d’invention en matière de programmes et d’applications. En revanche, quant il s’agit d’imaginer les interfaces qui permettront aux individus de sélectionner des programmes (télévision à la demande), de naviguer dans les galeries marchandes électroniques (télé-achat) ou de naviguer dans les futures autoroutes de l’information, c’est vers les sociétés de logiciels qu’ils se tournent. En matière d’interfaces, les concepts, l’inventivité, les technologies et les savoir-faire proviennent pour l’essentiel de l’informatique.

Au cours de sa brève histoire, l’informatique a connu cinq générations d’interfaces (1). Chacune de ces générations lève un obstacle entre l’utilisateur et la machine en incorporant dans la machine ce qui constituait jusqu’alors l’interface externe, la zone de contact et d’interaction avec l’utilisateur. L’interface graphique, l’interaction scripto-visuelle, s’est désormais généralisée à l’ensemble de la microinformatique. La souris n’est qu’un outils d’interaction parmi de nombreux autres, souvent empruntés à l’univers des jeux d’arcade et des jeux vidéo : joystick (manche à balai), boule roulante (trackball), « joypad », « trackpoint », « thinkpad », écran tactile. Quel que soit l’outil matériel d’interaction, le dialogue reste orienté vers l’activation d’icônes et de diagrammes.

L’innovation en matière d’interface renoue le fil avec les « utopies techniques » qui virent le jour au lendemain de l’invention des premiers ordinateurs. Dès 1945, Vannevar Bush, alors conseiller scientifique du Président Roosevelt, dans un article visionnaire « Comment nous pourrions penser » , en appelait à une nouvelle sorte de langage, capable d’absorber toutes sortes de données, mathématiques, textuelles, visuelles, vocales. La machine de ses rêves, un « système de rangement personnel mécanisé » servirait à exploiter les connaissances humaines et à produire de nouveaux documents. Il décrivait ce système, qu’il baptisa Memex, comme un bureau dans lequel seraient stockées « toutes sortes de livres, des images, les publications périodiques, la presse, » si vaste que « même si l’utilisateur engrangeait chaque jour cinq mille pages de données dans le bureau, il ne vivrait pas assez longtemps pour remplir le compartiment à mémoire. Son utilisateur pourrait trouver et extraire ce qu’il veut en pressant des boutons sur le bureau, ou en actionnant les manettes. Assis dans le cockpit du Memex comme dans celui d’un avion de chasse, le pilote textuel de Vannevar Bush appellerait des dossiers, les ferait apparaitre sur un écran, entrerait dans le texte jusqu’à ce qu’il localise la pensée pénétrante ou le fait pertinent. Il naviguerait dans un paysage d’informations, un « Dataland », anticipant sur ce qu’on appelle aujourd’hui « cyberespace ». En 1960, J.C.R. Licklider, qui travaillait pour le compte des militaires sur la mise au point d’un système de défense destiné à repérer les attaques aériennes, eut l’intuition d’un rapport nouveau de coopération entre l’homme et l’ordinateur et le formula en termes biologiques :« la symbiose homme-ordinateur est un sous-ensemble des systèmes homme-machine. Des systèmes homme-machine, il en existe des quantités. Pourtant il n’existe pas, à œ jour, de symbiose homme-machine. Dans un futur assez proche, les cerveaux humains et les machines informatiques seront étroitement interconnectés. Le partenariat qui en résultera sera capable de réfléchir comme aucun être humain ne l’a jamais fait, et de traiter les données d’une manière qu’aucun ordinateur que nous connaissons actuellement n’a jamais approchée ». Les militaires américains, convaincus que l’informatique de contrôle et de commande devait incorporer une forte dose d’interactivité et de visualisation, confièrent à Licklider la direction du département informatique de l’ARPA(l’agence du ministère de la défense qui subventionne les recherches de pointe). Dans ce cadre, Licklider finança la mise au point des premiers simulateurs de vol et les technologies qui devaient prendre, plus tard, le nom de « réalité virtuelle ».

Cette métaphore de la symbiose homme-machine continue d’inspirer la conception des nouvelles générations d’interface. Ces recherches s’orientent principalement dans sept directions.

 

Des interfaces graphiques à la navigation

 

Dans les interfaces graphiques de cinquième génération, la représentation figurée et iconique des commandes remplace les instructions codées et abstraites. La souris, le joystick, l’application d’un crayon optique ou d’un doigt sur l’écran tactile permettent d’agir sur ce qui se passe à l’écran, plutôt que par l’envoi d’une séquence de caractères alphanumériques. Les interfaces graphiques s’inspirent désormais des dessins animés, des jeux vidéo et intègrent même la troisième dimension. Passer de deux à trois dimensions ne représente pas un simple enrichissement visuel, mais permet de simuler de véritables explorations et navigations dans des espaces virtuels. Cette idée était présente dans les logiciels d’hypertexte qui permettent d’évoluer dans des univers de connaissances. Dans les CD-ROM et les consoles de jeu vidéo, cette navigation s’effectue « à l’intérieur de la machine », mais elle peut s’effectuer aussi sur les réseaux : naviguer consiste alors à passer d’un serveur à l’autre, pour exécuter des transactions, consulter des banques de données ou adresser des messages. Apple s’est inspiré de ce principe pour son futur réseau international, eWorld. eWorld a été conçue comme une ville : chacun des quartiers correspond à un ensemble de services qui seront accessibles sur le réseau. On y trouve une Poste (pour le courrier électronique), un quartier de la finance et des affaires (pour suivre la bourse), un centre d’apprentissage (pour consulter des encyclopédies et des bases de données), un Pavillon des arts et des loisirs, un kiosque à journaux, un marché (pour acheter des logiciels). General Magic est allée encore plus loin avec son logiciel Magic Cap, qui sera incorporé dans les futurs « communicateurs personnels ». L’interface est bâtie autour de trajets dans un couloir avec des portes ou dans les rues d’une ville. On peut pousser une porte ( pénétrer dans un bureau et laisser un message) , entrer dans une boutique (et acheter quelque chose), dans un kiosque à journaux (choisir un journal, le lire, ou l’emporter), dans un restaurant (consulter le menu et passer une commande). A terme, on pourra rencontrer des personnages à l’occasion de ces déambulations virtuelles et interagir avec eux.

 

Des interfaces « réactives » aux interfaces « actives » : les « agents »

Selon Alan Kay, qui travailla à la mise au point de la machine Alto au Xerox Palo Alto Research Center ainsi qu’à celle du Mac Intosh,  » ce qui fut inventé à cette époque là, c’était l’interface réactive : pour obtenir un résultat, l’utilisateur agit lui même, notamment avec la souris. Il actionne les « manettes » virtuelles (icônes, boutons, curseurs, ascenseurs) d’un logiciel, lequel réagit en visualisant l’effet de chaque geste. La prochaine étape sera celle de logiciels « actifs », qui agissent à notre place ». Ce concept de logiciel actif, de tâches déléguées à des agents logiciels dotés d’une certaine autonomie, flotte depuis cinq ans dans le « cerveau collectif » que constitue la communauté des concepteurs et développeurs de logiciels. Au départ, il s’agit d’un dispositif logiciel qui accomplit la mission qui lui a été confiée, au moment opportun (chroniquement, en permanence, lorsque l’ordinateur ne sert pas, lorsque les communications coûtent moins cher, lorsqu’un certain évènement se produit), et de manière autonome , sans contrôle de son initiateur. On prévoit que des agents logiciels, instruits par leurs propriétaires filtreront et classeront le courrier par ordre de priorité, négocieront des rendez vous, chercheront dans le réseau les informations susceptibles d’intéresser leur maître. Un grand nombre de tâches administratives pourraient être automatisées comme les envois réglementaires de messages ou de copies de rapports à certains correspondants. En fait, cette notion d’agent recouvre deux concepts très en vogue dans la Silicon Valley. Pour certains développeurs, les futurs agents sont un peu des lutins, malins et baladeurs, qui se promenant dans les réseaux, y rencontrent des collègues, afin d’accomplir des tâches d’intendance fastidieuses et répétitives. Ils peuvent s’interroger, s’entraider, se donner des conseils. Pour d’autres, ces agents logiciels revêtiront l’apparence de petits personnages de dessin animé qui apparaissent sur l’écran, qui mettent leur « intelligence » en oeuvre pour résoudre des petits problèmes, qui alertent leur maître sur un événement survenu, qui demandent des instructions.

Pour effectuer correctement leur mission, les agents devront être doués d’une certaine capacité d’initiative, qu’ils sachent prendre des décisions sans réclamer d’incessantes approbations. Sans qu’il soit nécessaire non plus , à la mise en route, de rédiger des pages entières de spécifications pour définir leurs tâches. On attendra d’un agent qu’il opère comme nous le ferions nous même, mais sans passer des heures à se demander comment nous réagirions à leur place devant chaque cas.

De fait, nos ordinateurs savent déjà beaucoup de choses sur nous : leurs disques durs contiennent les coordonnées de nos interlocuteurs, notre agenda, nos ressources, nos dépenses. Ils pourraient en apprendre encore plus dans notre courrier électronique. Les « agents logiciels » pourraient renouveler en profondeur les relations que nous entretenons tant avec les machines qu’avec les réseaux : des relations que l’on tente de caractériser maladroitement à travers les métaphores de l’assistant, de la secrétaire, de l’esclave, du knowbot (robot savant). Ils pourraient occuper une place inédite dans la manière dont nous gérons notre vie quotidienne.

Des interfaces « raisonnables », dotées du sens commun

Afin que cette délégation s’opère convenablement, il faudra que les agents logiciels sachent interpréter des directives laconiques et prendre des initiatives devant des situations imprévues. La connaissance que les ordinateurs peuvent acquérir de nos habitudes et préférences pourrait ne pas suffire. Il faudra probablement qu’ils disposent d’un minimum de « sens commun ». Un laboratoire américain travaille depuis dix ans à la réalisation d’une base de connaissances qui constituerait une sorte de « bon sens » minimal que pourrait exploiter à l’avenir tout logiciel prétendant à une certaine intelligence. Près de 40 personnes travaillent à récolter, coder et articuler les millions de bribes d’information pour constituer CYC. CYC « sait » désormais que les gens dorment (en général) la nuit, que personne (en principe) ne peut être en deux endroits en même temps, que les choses (sauf exception) tombent si elles ne sont pas soutenues. CYC n’est cependant sûr de rien, il est prêt a accepter qu’une règle souffre d’exceptions. CYC admet les contradictions et sait que la vie en est pleine, que bien des choses ne sont tout a fait vraies, ni tout à fait fausses. CYC manipule des faits, des vérités, des croyances, des craintes. Ainsi, face à des informations comme une personne âgée de 18 ans ayant 11 enfants, ou un personne plus jeune que ses enfants, CYC réagira, exprimera sa surprise. Ainsi, Microsoft envisage d’intégrer ce type de « sens commun » dans ses tableurs, afin de détecter dans un tableau des erreurs ou des bizarreries comme, par exemple, un employé âgé de 132 ans.

Reconnaissance de la voix

Le dialogue homme-machine classique passait par la maîtrise de langages artificiels. Puis sont venues les interfaces graphiques : si l’utilisateur impose ses choix, en activant commandes, menus et icônes, ces choix ne peuvent être effectués qu’à partir de propositions offertes par le programme. A l’horizon se profilent les interfaces en langage naturel : il revient à la machine de nous comprendre lorsque nous nous exprimons selon nos modalités les plus familières, la parole et l’écriture.

Au fil des années, la reconnaissance de la parole a progressé, ouvrant la voie à de nouveaux modes d’interaction avec les machines. La reconnaissance de la voix bute sur de nombreuses difficultés quand il s’agit de reconnaître des phrases élaborées et des vocabulaires étendus : elle doit alors prendre en compte le contexte pour lever les ambiguïtés entre les homophonies. Si des applications comme la dictée et le secrétariat électronique semblent repoussées à un horizon lointain, la reconnaissance vocale fonctionne assez bien quand la voix a été préalablement analysée et dans un registre limité de mots pré-définis. Pour des réponses simples à des questions (oui ou non), pour des instructions très sommaires (mettre en route une machine, déclencher une application, ouvrir un document, mettre un document en italique, saisir des chiffres dans un tableur), composer un numéro de téléphone, l’usage de la parole ne requiert pas de la machine une compréhension du « contexte » ou du « sens » du message. Les industriels du téléphone tablent sur cette technologie pour faciliter l’usage du téléphone dans des situations ou l’utilisateur souhaite conserver les mains libres, par exemple, en voiture. Ils en attendent aussi une protection contre le piratage des cartes de crédit : équipés de jumelles, certains délinquants surveillent les cabines téléphoniques et les distributeurs de billets, prennent note des codes pour les re-utiliser ensuite pour leur propre compte. Avec Foncard de la compagnie de téléphone américaine Sprint, l’abonné appelle un numéro vert et énonce un mot de passe: un ordinateur s’assure alors que cette voix correspond au mot de passe et autorise ensuite l’abonné à sélectionner un numéro : « chez moi », « mon bureau »… Pratiquement tous les équipements du foyer pourraient être activés par commande vocale (et devenir parlants) mais les contraintes qui accompagnent la reconnaissance de la parole risquent de limiter durablement sa généralisation.

Les interfaces « multimodales »

Dotées d’une capacité de reconnaissance de la voix ou des caractères, et d’un minimum de sens commun , les machines pourront interpréter les ordres en langage naturel. Il reste à déterminer quel types d’informations gagnent à être communiquées au travers d’une interface en langage naturel. Une vision naïve de la question consiste à croire que, parce que le langage est par excellence le moyen de communication entre les hommes, il serait une panacée pour dialoguer avec une machine .

Les recherches semblent s’orienter vers des interfaces multimodales, combinant langage naturel et instructions pré-déterminées.Dans une séquence de travail avec la machine, certaines instructions ou questions gagnent à être communiquées en langage naturel alors qu’il sera plus convénient de transmettre certaines instructions via des interfaces graphiques. Quand il s’avère que les interactions en langage naturel conviennent, il faudra cependant avoir le choix entre l’option vocale et l’option écrite (clavier ou stylo). Exemple: si l’ordinateur demande une adresse, il sera plus facile de saisir l’adresse par écrit. En revanche, s’il pose une question « oui » ou « non », on aura tendance à lui répondre oralement.

L’éclatement de l’ordinateur : des outils adaptés à chaque tâche

L’évolution vers des appareils de plus en plus portables, de plus en plus adaptés au contexte d’utilisation,est déja trés marquée dans le téléphone et l’electronique grand public : mobiles, pagers, walkman, discman.

Elle s’amorce aujourd’hui dans l’informatique avec les portables et les communicateurs personnels. Elle pourrait cependant aller bien plus loin encore, si l’on en croit Mark Weiser et l’équipe du PARC de Xerox. Selon Weiser, « les techniques les plus importantes sont celles qui s’effacent, qui se fondent tant à la vie quotidienne qu’elles en deviennent invisibles. Nous pensons que l’idée d’ordinateurs personnels est condamnée… Les objets doivent s’évanouir pour que nous soyons libres de les utiliser sans y penser et que notre pensée se fixe de nouveaux buts, au delà de ces objets ». Dans cette hypothèse, les ordinateurs connaitraient la même évolution que les moteurs électriques.” Au début du siècle, les usines n’étaient généralement équipées que d’un seul gros moteur, qui actionnait des douzaines, voire des centaines de machines différentes. Grâce à la mise au point de petits moteurs électriques, on a d’abord équipé chaque outil de sa propre source motrice, puis ultérieurement, on a doté certaines machines de plusieurs moteurs ». L’ordinateur personnel pourrait alors se ramifier en autant d’objets, adaptés chacun à un usage. « Les ordinateurs devront se présenter sous des formes variées convenant chacun à une tâche particulière : des cartes, des blocs, des tableaux », grands respectivement comme des cartes de crédit, des feuilles de papier et des affiches.

• Les cartes seraient les plus petits composants de cette informatique invisible et répartie. Plus polyvalentes que les calculatrices, les cartes à puce ou les agendas électronique, dotés d’un petit écran, les cartes électroniques pourraient servir d’extension à l’écran d’ordinateur. Il sera possible de déplacer une « fenêtre » de l’ordinateur vers l’écran de la carte, « d’empiler » sur cette carte les « travaux en cours » un peu comme on empile des papiers sur un bureau pour les emporter avec soi dans un autre bureau, ou dans une salle de réunion.

• Plus gros que les cartes, les blocs seraient des hybrides de la feuille de papier et de l’ordinateur portable. Plutôt que d’ouvrir plusieurs fenêtres sur un écran, on disposerait les blocs comme on éparpille aujourd’hui des feuilles de papier. Chaque « travail en cours » aurait son bloc.

• Quant aux tableaux actifs de plus grande dimension, ils serviraient d’écran vidéo, de panneau d’information, de tableau d’affichage.

La réalité augmentée

 

Jusqu’alors, la problématique des interfaces concernait le dialogue avec des machines, des écrans ou des ordinateurs : dans la réalité augmentée, l’ordinateur disparait en tant que tel : il se cache dans le décor. Ne subsisteraient plus que les interfaces « naturelles »: la surface matérielle du bureau, une feuille de papier, un stylo, voire le doigt. Dans le projet « Digital Desk », c’est le bureau lui même qui sert d’écran. Un projecteur numérique et une camera sont placées au dessus du bureau. Le projecteur numérique projette, par exemple, sur le bureau l’image d’une calculette. Si l’utilisateur pianote sur le clavier de la calculette, la camera enregistre le mouvement des doigts : elle les interprète, procède aux calculs. Les résultats sont « projetés » sur le bureau. Mais l’utilisateur peut aussi poser son doigt sur une feuille de papier : le chiffre qu’il pointe est alors enregistré par la caméra et introduit dans la calculette et fera l’objet de nouveaux calculs. Sur ce principe, on peut lire un journal et pointer avec le doigt le passage que l’on souhaite « copier » pour le « coller » dans un document de travail.

Le développement d’interfaces et de symbioses à base de « réalité augmentée » s’inscrit dans un horizon temporel plus lointain. Comme l’ordinateur bionique, le wetware qui se branche sur le cerveau, qui enregistre les ondes cérébrales et les traduit en instructions. Nous sommes à l’aube des premières réalisations.

 


[1]La première génération d’ordinateurs, a la fin des années 40, était commandée grâce à des fiches : les calculs pouvaient être modifiés par réarrangement des fiches dans les prises. La seconde génération dans les années 50 vit l’avènement du travail en différé quand les cartes perforées remplacèrent les fiches dans les prises. Les années 60 virent l’émergence du temps partagé : les programmeurs entrèrent en interaction directe avec la machine par l’intermédiaire d’un clavier et d’un écran. La quatrième génération voit l’apparition de menus pour donner des ordres à la machine.  En 1984, les travaux qui aboutirent à l’interface graphique du MacIntosh  cristallisent la cinquième génération.

1) La première génération d’ordinateurs, a la fin des années 40, était commandée grâce à des fiches : les calculs pouvaient être modifiés par réarrangement des fiches dans les prises. La seconde génération dans les années 50 vit l’avènement du travail en différé quand les cartes perforées remplacèrent les fiches dans les prises. Les années 60 virent l’émergence du temps partagé : les programmeurs entrèrent en interaction directe avec la machine par l’intermédiaire d’un clavier et d’un écran. La quatrième génération voit l’apparition de menus pour donner des ordres à la machine.  En 1984, les travaux qui aboutirent à l’interface graphique du MacIntosh  cristallisent la cinquième génération.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s