La courbe d’apprentissage Samsung… Comment créer une IA pour divers dialectes

0
  • Récits du Moyen-Orient sur la complexité de la création d’outils d’IA pour l’arabe, une langue aux multiples facettes

La-Femme (Samsung) –Galaxy AI prend désormais en charge 16 langues, aidant ainsi davantage de personnes à réduire les barrières linguistiques grâce à la traduction en temps réel et sur l’appareil. Samsung a ouvert la porte à une nouvelle ère de l’IA mobile. Nous visitons donc les centres de recherche Samsung du monde entier pour découvrir comment Galaxy AI a vu le jour et ce qu’il a fallu pour surmonter les défis du développement de l’IA. Alors que la première partie de la série examine la tâche consistant à déterminer les données nécessaires, cette partie se penche sur la tâche complexe de la prise en compte des dialectes.

Enseigner une langue à un modèle d’IA est un processus complexe, mais que se passe-t-il s’il ne s’agit pas d’une langue unique, mais d’un ensemble de dialectes divers ? C’était le défi auquel l’équipe du Samsung R&D Institute Jordan (SRJO) a été confrontée. Alors que l’arabe a été ajouté comme option linguistique pour les fonctionnalités de Galaxy AI telles que Live Translate, l’équipe a dû répondre aux différents dialectes arabes qui couvrent le Moyen-Orient et l’Afrique du Nord, chacun variant en termes de prononciation, de vocabulaire et de grammaire.

L’arabe est l’une des six langues les plus parlées dans le monde, utilisée quotidiennement par plus de 400 millions de personnes. 1 La langue est classée en deux formes : Fus’ha (arabe standard moderne) et Ammiya (les dialectes de l’arabe). Fus’ha est généralement utilisé lors d’événements publics et officiels, ainsi que dans les émissions d’information, tandis qu’Ammiya est plus couramment utilisé pour les conversations quotidiennes. Plus de 20 pays utilisent l’arabe et il existe actuellement une trentaine de dialectes dans la région.

Des règles non écrites

Reconnaissant la variation présentée par ces dialectes, l’équipe du SRJO a utilisé une gamme de techniques pour discerner et traiter les caractéristiques linguistiques uniques inhérentes à chacun. Cette approche s’est avérée cruciale pour garantir que Galaxy AI puisse comprendre et réagir d’une manière qui reflète fidèlement les nuances régionales.

« Contrairement à d’autres langues, la prononciation de l’objet en arabe varie en fonction du sujet et du verbe dans la phrase », explique Mohammad Hamdan, chef de projet de l’équipe de développement de la langue arabe. « Notre objectif est de développer un modèle qui comprend tous ces dialectes et puisse répondre en arabe standard. »

TTS est le composant de la fonctionnalité Live Translate de Galaxy AI qui permet aux utilisateurs d’interagir avec des locuteurs de différentes langues en traduisant des mots prononcés en texte écrit, puis en les reproduisant vocalement. L’équipe TTS a été confrontée à un défi unique, provoqué par la particularité de travailler avec l’arabe.

L’arabe utilise des signes diacritiques, qui servent de guides pour la prononciation des mots dans certains contextes, tels que les textes religieux, la poésie et les livres destinés aux apprenants en langues. Les signes diacritiques sont largement compris par les locuteurs natifs mais absents dans l’écriture quotidienne. Cela rend difficile pour une machine de convertir du texte brut en phonèmes, les unités sonores de base qui sont les éléments constitutifs de la parole.

« Il existe une pénurie d’ensembles de données fiables et de haute qualité qui représentent avec précision la manière dont les signes diacritiques sont correctement utilisés », explique Haweeleh. « Nous avons dû concevoir un modèle neuronal capable de prédire et de restaurer ces signes diacritiques manquants avec une grande précision. »

Les modèles neuronaux fonctionnent de la même manière que le cerveau humain. Pour prédire les signes diacritiques, un modèle doit étudier de nombreux textes arabes, apprendre les règles de la langue et comprendre comment les mots sont utilisés dans différents contextes. Par exemple, la prononciation d’un mot peut varier considérablement selon l’action ou le sexe qu’il décrit. Une formation approfondie de l’équipe a été la clé pour améliorer la précision du modèle arabe TTS.

Améliorer la compréhension

L’équipe SRJO a également dû collecter divers enregistrements audio des dialectes provenant de diverses sources, qui ont dû être transcrits, en se concentrant sur des sons, des mots et des phrases uniques. «Nous avons constitué une équipe de locuteurs natifs des dialectes qui connaissaient bien les nuances et les variations», explique Ayah Hasan, dont l’équipe était responsable de la création de la base de données. « Ils ont écouté les enregistrements et ont converti manuellement les paroles prononcées en texte. »

Ce travail a été crucial pour améliorer le processus de reconnaissance automatique de la parole (ASR) afin que Galaxy AI puisse gérer la riche mosaïque de dialectes arabes. L’ASR joue un rôle essentiel dans l’activation des capacités de compréhension et de réponse en temps réel de Galaxy AI.

« Construire un système ASR prenant en charge plusieurs dialectes dans un seul modèle est une entreprise complexe », explique Mohammad Hamdan, responsable ASR du projet. « Cela nécessite une compréhension approfondie des subtilités du langage, une sélection minutieuse des données et des techniques de modélisation avancées. »

Le point culminant de l’innovation

Après des mois de planification, de construction et de tests, l’équipe était prête à proposer l’arabe comme option linguistique pour Galaxy AI, permettant ainsi à beaucoup plus de personnes de communiquer au-delà des frontières. Cette équipe unique a rendu les services Galaxy AI accessibles aux arabophones, réduisant ainsi les barrières linguistiques et culturelles entre eux et les gens du monde entier. Ce faisant, ils ont établi de nouvelles bonnes pratiques qui peuvent être déployées à l’échelle mondiale. Ce succès n’est qu’un début : l’équipe continue d’affiner ses modèles et d’améliorer la qualité des capacités linguistiques de Galaxy AI.

Dans le prochain épisode, nous allons au Vietnam pour voir comment l’équipe améliore les données linguistiques. De plus, que faut-il pour former un modèle d’IA efficace ?

L’arabe n’est qu’une partie des langues et dialectes nouvellement pris en charge par Galaxy AI et disponibles en téléchargement depuis l’application Paramètres. Les fonctionnalités linguistiques de Galaxy AI telles que Live Translate et Interpreter sont disponibles sur les appareils Galaxy exécutant la mise à jour One UI 6.1 de Samsung. 2

1 UNESCO, Journée mondiale de la langue arabe 2023, https://www.unesco.org/en/world-arabic-lingual-day
2 One UI 6.1 a été lancé pour la première fois sur les appareils de la série Galaxy S24, avec un déploiement plus large sur d’autres appareils Galaxy, notamment Série S23, S23 FE, série S22, série S21, Z Fold5, Z Fold4, Z Fold3, Z Flip5, Z Flip4, Z Flip3, série Tab S9 et série Tab S8