Alors que ChatGPT continue de dominer l’actualité avec plus de 700 millions d’utilisateurs, un concurrent discret mais redoutablement efficace fait parler de lui : Claude Opus 4.1, développé par la startup Anthropic. Et fait surprenant : c’est OpenAI elle-même qui le reconnaît.
Dans une récente communication, OpenAI a dévoilé GDPval, une nouvelle méthode d’évaluation de la performance des intelligences artificielles. Cette méthode vise à tester les IA non plus sur de simples benchmarks textuels, mais sur des tâches réalistes à fort impact économique — celles que les professionnels rencontrent dans leur quotidien.
Contrairement aux benchmarks classiques qui se concentrent sur des réponses textuelles, GDPval repose sur :
des prompts complexes accompagnés de fichiers (documents, tableaux, slides, images…), des livrables concrets attendus, des tâches conçues avec des experts de terrain, issues de 9 secteurs clés de l’économie américaine, représentant chacun plus de 5 % du PIB.
L’objectif ? Mesurer la valeur ajoutée concrète qu’un modèle peut apporter à un professionnel : analyse de données, mise en forme de présentations, rédaction de rapports ou encore création de visuels.
Résultat inattendu : Claude Opus 4.1 est arrivé en tête, devant GPT-5.
Claude se démarque particulièrement dans la qualité esthétique des livrables (formatage, mise en page, clarté visuelle). GPT-5, de son côté, conserve un avantage net sur la précision des contenus.
Ce classement vient rappeler une chose : l’avenir de l’IA ne se résume pas à la popularité d’un seul modèle. Claude, longtemps resté dans l’ombre de ChatGPT, démontre qu’il peut être plus adapté à des usages professionnels intensifs, notamment pour les métiers où la présentation visuelle et la structuration de documents sont clés.