IA et droit, une étude détaille l'ampleur des hallucinations.

Contexte : Cet article repose sur une étude approfondie menée par l'Université de Stanford Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. L'étude publiée en janvier 2024 critique les performances des outils de recherche juridique alimentés par l'IA avec des nombreuses "hallucinations" (réponses incorrectes ou trompeuses générées par ces systèmes).

Objectif de l'étude

L'étude vise à évaluer de manière empirique les performances des outils de recherche juridique alimentés par l'IA, notamment ceux offerts par LexisNexis et Thomson Reuters, ainsi que GPT-4 pour comparaison.

L'essentiel à retenir

Taux de hallucination : Les outils spécifiques comme Lexis+ AI et Ask Practical Law AI ont montré un taux de hallucination entre 17% et 33%. GPT-4, utilisé comme comparaison, a également montré des taux similaires mais légèrement supérieurs d'hallucinations.
Performances variables : Lexis+ AI a été le système le plus performant, avec les taux les plus bas de réponses hallucinées.
Comparaison avec GPT-4 : Les outils juridiques spécifiques hallucinent moins que le modèle généraliste GPT-4, bien que le problème persiste à un niveau significatif.
Défis de l'évaluation : Évaluer ces outils est coûteux et complexe, nécessitant une expertise en droit et en informatique.

Implications pratiques

L'étude souligne l'importance de la supervision et de la vérification humaine dans l'utilisation des outils juridiques AI. Elle appelle à une intégration responsable de l'IA dans la pratique juridique, en soulignant que les avocats doivent comprendre les outils qu'ils utilisent et être conscients de leurs limites.

💡

En quoi c'est important : La dépendance croissante aux outils AI pour des tâches juridiques critiques soulève des questions importantes sur leur fiabilité. L'étude de Stanford montre que malgré les avancées technologiques, la vérification humaine reste cruciale.

Conclusion

L'étude conclut que malgré les avancées des systèmes RAG (Retrieval-Augmented Generation) dans la réduction des hallucinations, les utilisateurs doivent rester vigilants et ne pas se fier aveuglément aux outils AI sans vérification appropriée. Elle met en lumière la nécessité d'une évaluation transparente et rigoureuse des outils AI dans le domaine juridique pour assurer leur intégration responsable et éthique dans la pratique professionnelle.

👉 A suivre

Quelles seront les améliorations apportées par les fournisseurs d'IA pour réduire les taux de hallucination ?
Comment les cabinets d'avocats adapteront-ils leurs pratiques pour intégrer ces outils tout en minimisant les risques ?
Quel rôle les régulateurs joueront-ils pour assurer la transparence et la fiabilité des outils de recherche juridique AI ?

Méthodologie

Définition des hallucinations : L'étude définit une hallucination comme une réponse contenant des informations incorrectes ou une fausse affirmation qu'une source soutient une proposition.
Échantillon de requêtes : Plus de 200 requêtes juridiques ont été préenregistrées et testées sur différents systèmes pour évaluer leur précision et leur propension aux hallucinations.
Évaluation manuelle : Chaque réponse a été évaluée manuellement selon des critères de correction et de fondement, avec une attention particulière à la qualité de la récupération des documents et à la génération des réponses.

Limitations

Accès aux systèmes : L'étude a été entravée par l'accès limité aux systèmes propriétaires, ce qui complique l'évaluation complète de leur fiabilité et de leur efficacité.
Coût et complexité de l'évaluation : L'évaluation des outils AI en droit est coûteuse et complexe, nécessitant une expertise à la fois en informatique et en droit.

GenAI

Article rédigé sous supervision éditoriale avec des outils d'Intelligence Artificielle Générative.

Accès backstage

Le théâtre politique

Le président empêché

Team Shape France