LLM Data Mining : votre site web alimente-t-il la machine ?

Les LLM s’appuient sur des contenus en ligne accessibles pour se former. Cependant, si une quantité importante de ce contenu a été créée par des LLM, vont-ils commencer à dériver en termes de qualité et de précision de leur production ? Comprenez l’impact de cet article.

Yext

En raison de son rôle central dans l’infrastructure de localisation, Smartling est bien placé pour effectuer des analyses au niveau macro sur les modèles d’utilisation et les tendances générales dans le monde du contenu Web.

Et récemment, nous avons trouvé quelque chose d’intéressant dans ces données.

Nous avons remarqué que les bots LLM analysent les sites localisés. On peut supposer qu’il s’agit de les exploiter pour trouver du contenu afin d’améliorer encore leurs propres modèles fondamentaux.

Il s’agit d’une tendance généralisée, avec tous les types et toutes les tailles d’entreprises touchés. Sans entrer dans la légalité, l’éthique ou la propriété de ce contenu, nous sommes immédiatement frappés par le potentiel de création d’une chambre d’écho Internet en raison de ces explorations.

Contamination des données de formation et conséquences

Avec l’augmentation du nombre d’entreprises qui utilisent une approche de repli de la traduction automatique pour leur contenu Web, ainsi que la disponibilité récente des LLM en tant que fournisseur de traduction, les LLM pourraient bientôt se retrouver dans la position de « manger involontairement leur propre nourriture pour chiens ».

Quel est l’impact sur la qualité et l’efficacité des LLM lorsque leurs ensembles de données d’apprentissage sont entrelacés avec du contenu traduit provenant des LLM ?

Les LLM s’appuient sur la vaste gamme de contenus numériques disponibles gratuitement sur Internet, qu’il s’agisse d’un article de journal, d’une revue universitaire, d’un billet de blog ou de livres numérisés, pour amasser suffisamment de contenu afin d’augmenter la taille et la complexité d’un modèle pré-entraîné et ainsi fournir des capacités génératives de type humain. Cependant, si une partie importante du contenu ingéré a été créée uniquement par des LLM sans aucun apprentissage par renforcement à partir des commentaires humains, commenceront-ils à dériver en termes de qualité et de précision de leur sortie ? La boucle de rétroaction créera-t-elle une sorte d’IA’isme qui finira par se propager et modifier la structure et le ton du langage en général ?

Il est difficile d’en estimer l’impact, mais comme nous sommes au début de cette révolution de l’IA générative, nous voyons les pièges potentiels dans le processus de collecte de données utilisé par les fournisseurs de LLM.

Propriété intellectuelle et questions de valeur

Il est impossible d’identifier tout le trafic entrant appartenant aux bots car nous dépendons de leur bonne utilisation des en-têtes User-Agent qui déclarent leur origine et leur finalité. De nombreux robots de scraping sans scrupules ne se contentent pas de cacher leur objectif ; Ils essaieront activement de se déguiser et de se fondre dans le flux général de trafic que tout site Web public voit.

Une approche future possible pour filtrer cet effet de « chambre d’écho » consiste pour les LLM à travailler avec les fournisseurs de contenu pour développer une sorte de filigrane qui identifie le contenu généré par un LLM afin qu’il puisse être catégorisé et traité de manière appropriée. Ce type de filigrane sera probablement demandé pour atténuer les effets de la désinformation, du vol de propriété intellectuelle et d’autres comportements antisociaux que les mauvais acteurs peuvent présenter.

De plus, les entreprises qui ne voient pas d’inconvénient ou qui sont intéressées par le fait que les LLM explorent leurs données pourraient un jour choisir de monétiser leur contenu en vendant l’accès aux robots d’indexation LLM. Cela pourrait s’avérer être une activité secondaire lucrative qui paie une valeur négociée pour le contenu généré par l’homme. Les producteurs de contenu ont déjà intenté des poursuites en cours contre les LLM dans le but de reprendre le contrôle de leur matériel protégé par le droit d’auteur.

Que pouvons-nous faire à ce sujet ?

Le grattage LLM de sites Web pour le contenu n’est pas un secret. Pourtant, de nombreuses entreprises peuvent être surprises d’apprendre que cela leur arrive, et elles peuvent participer à leur insu à des activités qui leur apportent peu d’avantages tout en générant une valeur infinie pour les LLM.

Dans le monde de la traduction automatique, « utiliser l’IA pour aider l’IA » n’est pas une idée nouvelle. Lorsque les données linguistiques spécifiques au client, au domaine ou à longue traîne sont rares, il n’est pas rare de recourir à des techniques d’augmentation des données telles que l’exploration Web de sites Web similaires, la rétrotraduction ou la fabrication de données en créant des variantes de langues source et cible légèrement différentes.

Néanmoins, il est essentiel que toute personne s’appuyant sur les résultats du modèle comprenne les avantages et les inconvénients de telles approches. Dans la plupart des cas, ces techniques ne peuvent qu’améliorer progressivement la qualité du modèle. En fin de compte, ils ne remplacent pas la devise sous-jacente de l’apprentissage automatique - le besoin de données bien étiquetées et pertinentes.